토픽 모델링 (MALLET)을 적용하려는 비공식 문서 (수천 쌍)가 있습니다. 문제는 문서에 철자가 틀린 단어가 상당수 있다는 것입니다. 대부분은``juz '->'just ','alr '->'already '와 같은 짧은 형식이나 지역 용어와 같은 의도적 인 것입니다. 저자의 독특한 작문 스타일 때문에 이러한 두 가지 변형이 존재합니다.텍스트 마이닝 작업을 위해 문서에서 맞춤법이 틀린 단어를 처리하는 방법은 무엇입니까?
MALLET에 피드를 제공 한 후 생성 된 주제 중 하나가 실제로는 맞춤법이 틀린 중지 단어 집합이라는 사실에 다소 괴롭힘을당했습니다. 나는이 단어들이 같은 저자의 문서의 작은 부분 집합에서 주로 사용된다고 믿는다. 따라서 MALLET은 그것을 집어 들었다.
제 질문은 이러한 맞춤법이 틀린 단어 집합을 철자 검사하고 수정하며 수정 된 텍스트를 어딘가에 저장하는 것입니까? 나는 이것이 올바르게 커밋되기 전에 수작업으로 수정을 확인해야한다는 것을 의미한다고 생각하십니까? 이 작업을 수행하는 데 가장 효율적인 방법은 무엇입니까?
아니면이 철자가 틀린 단어는 실제로 무시합니까?
나는 stoplist를 이미 사용하고있다. 하지만이 문서를보고 다른 단어를 잘못 입력해야만이 문제를 해결할 수있는 더 나은 방법이 있는지 궁금합니다. – goh