일반 텍스트 파일 26 개, 즉 12 - 148kb, 총 1.2Mb의 코퍼스가 있습니다. Windows 7 랩톱에서 R을 사용하고 있습니다.tm에서 stemCompletion의 최대 크기는 어느 정도입니까?
나는 모든 정상적인 정리 작업 (정지 단어, 사용자 정의 중지 단어, 소문자, 숫자)을 수행하고 스템 완료를 원합니다. 예제에 표시된대로 원래의 코퍼스를 사전으로 사용하고 있습니다. 나는 그것이 (거의 5 용어로) 전혀 작동 할 것이라는 것을 확인하기 위해 몇 가지 간단한 벡터를 시도했다. 그리고 그것은 매우 빠르게 수행되었다.
exchanger <- function(x) stemCompletion(x, budget.orig)
budget <- tm_map(budget, exchanger)
어제부터 오후 4시에 작동했습니다. 진단하에있는 R Studio에서 요청 로그는 요청 번호가 다른 새 요청을 표시합니다. 작업 관리자는 메모리를 사용하여 표시하지만 미친 양은 표시하지 않습니다. 나는 거의 멈추고 싶지 않다. 진행 상황을 확인하는 방법에 대한 다른 아이디어 - 불행히도 휘발성 코퍼스입니까? 얼마나 오래 걸릴지에 대한 아이디어? dtm 이름 벡터를 사전으로 사용하여 가장 빈번하게 (또는 높은 tf-idf) 잘라내려고 생각했지만이 프로세스를 중지하기를 꺼립니다.
이것은 다른 많은 것들이 실행되는 일반적인 Windows 7 노트북입니다.
이 코퍼스는 stemCompletion에 비해 너무 큽니까? Python으로 옮겨가는 것보다 짧은, stemCompletion을 수행하거나 vice stem을 lemmatize 할 수있는 더 좋은 방법이있다. 웹 검색은 아무런 답을 얻지 못했다.
이 답장을 보내 주셔서 감사합니다. 소스를 망친 것에 익숙하지 않지만 ... RStudio의 스크립트 창에서이 명령을 스크립트에 넣을 수 있습니까? 나는 근본적으로 소스를 편집하고 저장하는 것과 같은 전체 소스를 넣는 경우에만 추측합니까? – ChristinaP
당신 말이 맞습니다. 원본에서 전체 기능을 별도의 스크립트로 복사 한 다음 편집하십시오. 사용할 때마다 패키지를로드 한 다음 사용자 정의 함수를로드하여 패키지에서로드 한 내용을 대체하십시오. – SchaunW