2010-11-25 1 views
0

토픽 모델링 (MALLET)을 적용하려는 비공식 문서 (수천 쌍)가 있습니다. 문제는 문서에 철자가 틀린 단어가 상당수 있다는 것입니다. 대부분은``juz '->'just ','alr '->'already '와 같은 짧은 형식이나 지역 용어와 같은 의도적 인 것입니다. 저자의 독특한 작문 스타일 때문에 이러한 두 가지 변형이 존재합니다.텍스트 마이닝 작업을 위해 문서에서 맞춤법이 틀린 단어를 처리하는 방법은 무엇입니까?

MALLET에 피드를 제공 한 후 생성 된 주제 중 하나가 실제로는 맞춤법이 틀린 중지 단어 집합이라는 사실에 다소 괴롭힘을당했습니다. 나는이 단어들이 같은 저자의 문서의 작은 부분 집합에서 주로 사용된다고 믿는다. 따라서 MALLET은 그것을 집어 들었다.

제 질문은 이러한 맞춤법이 틀린 단어 집합을 철자 검사하고 수정하며 수정 된 텍스트를 어딘가에 저장하는 것입니까? 나는 이것이 올바르게 커밋되기 전에 수작업으로 수정을 확인해야한다는 것을 의미한다고 생각하십니까? 이 작업을 수행하는 데 가장 효율적인 방법은 무엇입니까?

아니면이 철자가 틀린 단어는 실제로 무시합니까?

답변

0

지금은 불용어로 무엇을하고 있습니까? 주제 모델링을하고 있다면 필터를 걸러내는 것이 좋습니다. 그렇다면이 용어도 제외해야합니다.

보다 원칙적인 방법으로 LDA에서 중지 단어 처리에 대한 몇 가지 조사가있다

[응답 편집 답장]. 마음에 봄이 개 논문이 있습니다

  1. Term Weighting Schemes for Latent Dirichlet Allocation
  2. Rethinking LDA: Why Priors Matter.

[1] 분명히 그들이 설정 예측 작업에 도움이되는 용어의 가중치 방식을 사용, [2]가 사용하는 먼저 단어 배포에 대해 비대칭 적이기 때문에 분명히 모든 중지 단어와 전체 코퍼스에 공통적 인 다른 단어를 포함하는 몇 가지 주제로 이어집니다.

LDA에서 정지 단어 및 기타 비 주제 단어를 자동으로 유추하는 가장 좋은 방법은 여전히 ​​연구 질문입니다.

+0

나는 stoplist를 이미 사용하고있다. 하지만이 문서를보고 다른 단어를 잘못 입력해야만이 문제를 해결할 수있는 더 나은 방법이 있는지 궁금합니다. – goh

0

필자는 철자가 틀린 단어 나 잘못 수정 된 단어가 토픽 모델링 결과에 미치는 영향을 알지 못해도 대답 할 수 없다고 생각합니다. 그래서 당신이 더 많은 정보를 줄 수 있다면 그것은 좋을 것입니다.

그러나 적어도 수정 사항이 원래 작성자의 의도 인 경우 수정을 원했습니다.

+0

@Paul 예를 들어 단어 '{juz'(just), 'tt'(that), 'oso'('),'alrdy '(이미),'frm ' from), 'wan'(want) ...} – goh

+0

그건 내 질문이 아니야. 수정하지 않으면 주제 모델링에 어떤 영향을 미칩니 까? 그렇다면 영향은 무엇입니까? –

+0

@Paul, 지금은 (내가 고치지 않을 때), 나는 같은 단어의 다른 변주와 짧은 손으로 구성된 여러 주제를 본다. 그들은 소음이고, 일부는 실제로 불어 구어체이며, 내가 주제를 읽는 방식에 영향을 미칩니다. 나는 주제를 실제로 해석하는 데 어려움을 겪고있다. 그 (것)들을 정정하기를 위해, 나가 나가 그들을 수동으로 철자 검사하고 정정 할 필요가있다 것을 나는 믿기 때문에 나는 나가하지 않기 때문에 나는 모른다. – goh

관련 문제