2012-11-03 3 views
4

텍스트 사전 처리 및 정리를 위해 Java 라이브러리를 제공해 주시겠습니까? lib 디렉토리는 작업을 수행해야합니다Java 텍스트 전처리 및 정리

  • 변환 모든 동사는 단수형으로
  • 변환 모든 명사를 부정사하는
  • 쓸모없는 경우

답변

3

lemmatization불린다. 하나의 Java 기반 lemmatizer는 Standford CoreNLP입니다.

"쓸모없는 단어"의 경우 "중지 단어"를 원할 것입니다. 표준 목록은 없지만 인터넷에 떠 다니는 부분이 많습니다. 일반적으로 100과 1000 사이). 전에 this list을 사용하는 사람들을 알았습니다. 정지 단어를 제거 할 때는 일치하는 것을 찾을 때 대소 문자를 무시하십시오.

-1

확실하지 단어 (텍스트의 의미에 대한) 제거 이것은 당신이 필요로하는 모든 일을하지만, mrsqg를 확인하십시오. (예를 들어, 단수 명사 부정사 및 동사) 정규형 단어를 변환

http://code.google.com/p/mrsqg/

+0

질문과 관련하여 어떤 영향이 있습니까? – polm23