2016-06-20 3 views
0

내가 nltk.stem.snowball 수입 SnowballStemmer사용하여 자연 언어에서 문자열을 막기 위해 노력 파이썬 2.7

에서 수입하고 다음과 같이 내가 문자열을 가지고 :

TEXT_STRING을 = "안녕하세요 모두가 경우에 당신이 할 수 parseOutText를 사용하여이 메시지를 올바르게 읽으십시오. "

나는이 코드를 실행합니다 : words =" ".join (textmer_string.split (" "))

및 1g 다음은 'e'몇 개가 누락 된 것입니다. 그것을 일으키는 원인을 알아낼 수 없습니다. 어떤 제안? 피드백

주셔서 감사합니다

"everyon 안녕하세요 당신이 행복 프로젝트의 다음 부분으로 진행 parseouttext이 당신의 적절한 사용을 messag 읽을 수 있는지"당신은 올바르게 사용하고

+0

올바르게 사용하고 있습니다. 이상한 행동을하는 형태소 분석기입니다. 원인이 무엇인지는 훈련 데이터가 너무 적거나 균형이 잘못되었거나 단순히 잘못된 결론 일뿐입니다. 우리는 완벽을 기대할 수는 없지만 일반적으로 일어나는 일은 성가시다. 또한 동사와 마찬가지로 "모든 것"에서 "모든 것"까지 형태소 분석을합니다. 적어도 여기에서는 그것이 무엇을하는지 분명합니다. 그러나 "-e"는 영어의 접미사가 아닙니다 ... – alexis

+0

고마워요. 나는 그것이 내 질문에 대한 답이라고 생각한다. – kevbuntu

+0

대답을 약간 확장했다. NB, 나는 줄기 세포 내부에 대한 어떤 경험도 가지고 있지 않습니다. – alexis

답변

0

; 이상한 행동을하는 형태소 분석기입니다. 지나치게 적은 교육 자료 또는 잘못된 균형 또는 형태소 분석기의 통계 알고리즘에 의한 잘못된 결론으로 ​​인해 발생할 수 있습니다. 우리는 완벽을 기대할 수는 없지만 일반적으로 일어나는 일은 성가시다. 또한 동사와 마찬가지로 "모든 것"에서 "모든 것"까지 형태소 분석을합니다. 적어도 여기에서는 그것이 무엇을하는지 분명합니다. 하지만 "-e"는 영어의 접미사가 아닙니다 ...

스템 메머는 옵션 단어 ignore_stopwords=True을 허용합니다. 스톱 워드 목록에서 단어의 형태소 분석을 억제합니다 (일반적으로 불규칙한 단어로, 포터는 제외 할 것으로 생각했습니다). 트레이닝 세트에 포함되어있을 때 더 나쁜 결과를 얻었 기 때문에 트레이닝 세트에서 제외되었습니다.) 불행히도 여러분이 묻는 특정 예제는 도움이되지 않습니다.