2011-10-01 4 views
2

Java를 호출하는 R 언어 tm 패키지에서 stemDocument를 사용하여 코퍼스를 줄이려고합니다. 나는 TM 설명서의 예제를 시도 :R 언어 tm (텍스트 마이닝) 패키지에서 stemDocument를 사용하는 방법은 무엇입니까?

data("crude") 
crude[[1]] 
stemDocument(crude[[1]]) 

다음과 같은 오류 얻을 : 어떤 도움을 주시면 감사

Could not initialize the GenericProperitiesCreator. This exception was produced: 
java.lang.NullPointerException 

합니다. 나는 Java에 대해 아무것도 모른다.

감사합니다.

+0

나를 위해 작동합니다. Java 설치시 뭔가가 있어야합니다 (Java가 설치되어 있어야합니다.). –

답변

1

좋은 질문입니까?

내가 가지고있는 코드만으로 동일한 오류가 발생합니다. 그러나 처음부터 예제 (예 : 'p. 1의 표제'변환)를 따르고 코퍼스를 만들어 일반 텍스트 문서로 변환하면 Java 오류가 발생하지 않습니다. manual의 코드 예제는 이미이 두 단계를 완료했다고 가정합니다.

그렇다면 결과를 검사 할 때 실제 형태소 분석이 없습니다 ... 나는 형태소 분석을 수행하기 위해 stemDocument의 @ user813966의 simple example을 얻을조차 수 없습니다. 나는 대신 RStem과 SnowBall 패키지를보고있다.

그동안 python package NLTK이 내 형태소 분석 도구입니다.

업데이트는 :

a <- tm_map(a, stemDocument, language = "english") 

그래서 귀하의 질문에 대한 완전한 대답은

는 TM에 따라 R에 텍스트를 입력하는 모든 단계를 수행 : 나는 다음과 같이 language = "english"을 추가하여 작업 stemDocument 기능을 가지고 꾸러미. 또한 rJava가 필요합니다 (창에서 작업하는 경우 jre 디렉토리가있는 디렉토리에 JAVA_HOME 환경 변수를 설정해야 함). stemDocument 작업을 수행하려면

1

내 편이 똑같습니다. .JAR 눈덩이 내 클래스 패스의 줄기 단어의 대응/단어 저장소를 추가하여 해결 : C : 2.12 \ 눈덩이 \ 자바

이를 \ \ 사용자 \ xxx.xxx \ 문서 \ R \ 윈 - 라이브러리 여기에 추천되었다 : http://weka.wikispaces.com/Stemmers

난 여전히 다음과 같은 오류가 있지만 지금 잘 작동 :

Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH? 
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH? 
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH? 
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH? 
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH? 
[KnowledgeFlow] Loading properties and plugins... 
[KnowledgeFlow] Initializing KF... 
+1

게시 해 주셔서 감사합니다. 동일한 지시 사항을 따르려고했는데 게시 한 것과 동일한 오류가 나타납니다. 그러나 나는 텍스트가 줄기가 없다. 나는 한 발짝도 빠뜨린 것 같아. 해당/단어 저장소를 추가한다고 말하면 무엇입니까? \ Snowball \ java에도 포함되어 있습니까? – exl

1

눈덩이 형태소 분석기 (snowball.jar)가 weka.jar 파일을 찾을 수 없습니다.

컴퓨터에서 weka.jar 파일을 검색해야합니다.

wekajar="/usr/local/lib/R/site-library/RWekajars/java/weka.jar" 
oldcp=Sys.getenv("CLASSPATH") 
newcp=NULL 
Sys.setenv(CLASSPATH=paste(wekajar,newcp, sep=":")) 

library("tm")  
data("crude") 
stemDocument(crude[[1]], language = "english") 

이가에 R 세션에 대한 Java CLASSPATH를 설정 내 리눅스 시스템에서, 그것은 당신의 R 코드에서, 상단에 다음과 비슷한 줄을 추가,

/usr/local/lib/R/site-library/RWekajars/java/weka.jar

다음

에 위치 위의 weka.jar 파일. 하지만 기존 클래스 경로는 재설정됩니다. 필요한 경우 이전 항목을 다시 추가 할 수 있습니다.

관련 문제