2011-03-02 4 views
6

저는 말렛을 사용하여 100,000 줄 (말렛 형식의 약 34MB)을 포함하는 텍스트 파일의 주제를 추론했습니다. 하지만 지금은 백만 줄 (약 180MB)을 포함하는 파일을 실행해야하고 java.lang.outofmemory 예외가 발생합니다. 파일을 더 작은 파일로 분할하고 결합 된 모든 파일에있는 데이터에 대한 모델을 빌드하는 방법이 있습니까 ?? 사전에 감사말렛 주제 모델링

답변

1

나는

+1

것 같습니다. 2007 년 이래로 어떠한 활동도 없었습니다. 또한 어떤 라이센스가 사용되는지 (상업적 개발이 허용됩니까?) 명확하지 않습니다. – chaostheory

1

(물론 저 성능) 때문에 무제한 코퍼스 크기로 확장 할 수있는 빅 데이터에 망치의 확장성에 대한 모르겠지만, 디스크 백업 지속성에 데이터를 저장할 수 http://dragon.ischool.drexel.edu/ 프로젝트 이 모델은 여러 파일에서 읽었을지라도 여전히 매우 거대합니다. 자바 VM의 힙 크기를 늘려 보셨습니까?

0

현재 PC의 메모리 크기를 고려할 때 2GB만큼 큰 힙을 사용하는 것이 쉽습니다. 클러스터 사용을 고려하기 전에 단일 시스템 솔루션을 사용해보십시오.

1

java.lang.outofmemory 예외는 주로 힙 공간이 부족하기 때문에 발생합니다. -Xms 및 -Xmx를 사용하여 다시 오지 않도록 힙 공간을 설정할 수 있습니다. 함이 라인/mallet.bat 증가 값에

6

는 : 드래곤 툴킷하지만 죽은처럼

set MALLET_MEMORY=1G