내가 nltk.stem.snowball 수입 SnowballStemmer사용하여 자연 언어에서 문자열을 막기 위해 노력 파이썬 2.7
에서 수입하고 다음과 같이 내가 문자열을 가지고 :
TEXT_STRING을 = "안녕하세요 모두가 경우에 당신이 할 수 parseOutText를 사용하여이 메시지를 올바르게 읽으십시오. "
나는이 코드를 실행합니다 : words =" ".join (textmer_string.split (" "))
및 1g 다음은 'e'몇 개가 누락 된 것입니다. 그것을 일으키는 원인을 알아낼 수 없습니다. 어떤 제안? 피드백
주셔서 감사합니다"everyon 안녕하세요 당신이 행복 프로젝트의 다음 부분으로 진행 parseouttext이 당신의 적절한 사용을 messag 읽을 수 있는지"당신은 올바르게 사용하고
올바르게 사용하고 있습니다. 이상한 행동을하는 형태소 분석기입니다. 원인이 무엇인지는 훈련 데이터가 너무 적거나 균형이 잘못되었거나 단순히 잘못된 결론 일뿐입니다. 우리는 완벽을 기대할 수는 없지만 일반적으로 일어나는 일은 성가시다. 또한 동사와 마찬가지로 "모든 것"에서 "모든 것"까지 형태소 분석을합니다. 적어도 여기에서는 그것이 무엇을하는지 분명합니다. 그러나 "-e"는 영어의 접미사가 아닙니다 ... – alexis
고마워요. 나는 그것이 내 질문에 대한 답이라고 생각한다. – kevbuntu
대답을 약간 확장했다. NB, 나는 줄기 세포 내부에 대한 어떤 경험도 가지고 있지 않습니다. – alexis