2013-02-07 10 views
2

나는 Rtm 패키지를 사용하고 있으며, 텍스트 요소를 제거하는 tm_map 함수 중 거의 아무 것도 나를 찾지 못한다. 으로R tm removeWords stopwords가 stopwords를 제거하지 않음

내가 예를 들어, 내가 실행하겠습니다 의미 '작업'

d <- tm_map(d, removeWords, stopwords('english')) 

을하지만 내가

ddtm <- DocumentTermMatrix(d, control = list(
    weighting = weightTfIdf, 
    minWordLength = 2)) 
findFreqTerms(ddtm, 10) 

을 실행할 때 나는 아직도 얻을 :

[1] the  this 

.. 등. 그리고 다른 불합리한 단어들.

오류가 발생했음을 나타냅니다. 아무도 이것이 무엇인지, 스톱 워드 제거 기능을 올바르게 만드는 방법, 또는 나에게 잘못되는 것을 진단하는 방법을 알고 있습니까?

UPDATE

이 오류 이전까지 내가 잡을하지 않았다 :

Refreshing GOE props... 
---Registering Weka Editors--- 
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH? 
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH? 
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH? 
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH? 
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH? 
[KnowledgeFlow] Loading properties and plugins... 
[KnowledgeFlow] Initializing KF... 

그것은이다 오른쪽 TM에 중지 단어를 제거하고 웨카? 이게 내 문제 일 수 있니?

this에서 2

업데이트,이 오류는 관련이없는 것으로 보인다. 불용 단어에 관한 것이 아니라 DB에 관한 것입니다.

+0

여기에서 제안한 내용을 시도해 보셨습니까? https://stat.ethz.ch/pipermail/r-help/ 2012-2 월/302479.html? – Ben

+0

고마워,하지만 그게 내 오류 메시지를 막을거야, weka가 파일을 찾는 데 도움이되지 않을까? – Mittenchops

답변

6

신경 쓰지 마라. 나는 다음과 같은 최소한의 예를 들었다 :

일련의 표현을 여러 개 사용했다. 공백, 구두점 등을 제거한 순서는 새로운 단어를 다시 연결했습니다.

+3

네, 올바른 순서로 그'tm_map' 함수를 얻으려면 devilish가 될 수 있습니다. 나는 과거에 형태소 분석에 어려움을 겪었고 도움을주기 위해 순서를 재정렬했다. 다행 이군. – Ben

+2

기본적으로 removeWords에서 맞춤 단어와 동일한 문제가 있습니다. 명령은 무엇이었을 까? stripWhitepace, removePunctuation, removeWords 및 stemDocument를 실행하고 있습니다. 내가 추측 하건데 아마도 올바른 순서로 솔루션을 업데이트 할 가치가있을 것입니다. –

관련 문제