나는 txt 파일의 모든 단어의 출현을 계산해야하는 프로젝트에 참여하고 있습니다. 예를 들어,이 같은 텍스트 파일이 :자바 용 NLP, 어떤 툴킷을 사용해야합니까?
실버 레이크가 IPO 후보자에 들어 보이는 무엇실적에 의해 가루 3 회사 : 애플, 씨 러스 로직, IBM IBM의 팔미 사노 : 당신은 100 수에 도착하는 방법 -Year Old Company
위의 파일에 3 개의 문장이 있고 모든 단어의 출현을 계산하고 싶습니다. 여기에서 회사와 회사는 동일한 단어 "회사"(소문자)로 간주되어야하므로 "회사"라는 단어의 총 발생은 2입니다.
두 개의 단어를 말할 수있는 NLP 툴킷이 " 가족 "과"가족 "은 실제로 같은 단어"가족 "에서 온 것입니까?
나는 나이브 베이 즈 훈련을하기 위해 모든 단어의 출현을 계산하므로 각 단어의 정확한 발생 횟수를 얻는 것이 매우 중요합니다.
도움이 될만한 자료 : http://weblogs.java.net/blog/tomwhite/archive/2006/07/pluralization.html –
유용한 용어 : 가족 및 가족이 동일한 어휘 항목에 속한다는 것을 알려주는 도구 *는 줄기 (stemmer) *라고 부릅니다. 워드 카운트는 유니 그램 주파수라고도합니다. 문서를 단어 수의 특징 벡터로 취급하는 모델을 bagu of words *라고합니다. – cyborg
@cyborg 고마워. –