2012-05-19 3 views
1

내가 물어 보려는 내용은 Sentiment analysis with NLTK python for sentences using sample data or webservice?과 매우 비슷하게 들릴지 모르지만, 나는 텍스트에서 문장의 구문 분석 및 토큰 화를 다한다. 내 질문은 내가 NLTK 영화 리뷰의 예에서 본 지금까지 무엇이든간에 예감정 분류 NLTK를 사용하여 자신의 텍스트 데이터

  1. 내 문제에 가장 유사한 것으로 보인다이지만, 두 개의 폴더 POS 및 NEG하고있다으로 movie_review 훈련 텍스트 형태로 이미 텍스트가 저장됩니다. 거대한 텍스트를 분류하려면 어떻게해야합니까? 데이터를 수동으로 읽고 두 개의 폴더에 저장합니까? 그게 코퍼스가 되는가? 그 후 예에서 movie_review 데이터처럼 작업 할 수 있습니까?

위의 질문에 대한 대답이 '예'인 경우 어떤 도구로도 작업 속도를 높일 수있는 방법이 있습니까? 예를 들어, "Monty Python"이 들어있는 텍스트 만 사용하고 싶습니다. 그런 다음 수동으로 분류 한 다음 pos 및 neg 폴더에 저장합니다. 그게 효과가 있니?

답변

3

예, 당신이 분류를 양성하는 훈련 코퍼스가 필요합니다 도와주세요. 또는 정서를 감지 할 다른 방법이 필요합니다.

훈련 코퍼스를 만들려면 손으로 분류하거나, 다른 사람이 분류 할 수 있도록 (기계식 터크가 인기가 있습니다) 또는 corpus bootstrapping을 수행 할 수 있습니다. 감정적 인면에는 키워드, 긍정적 인 단어 및 부정적인 단어의 목록 2 개를 만드는 것이 포함될 수 있습니다. 이들을 사용하여 초기 교육 자료를 작성하고 직접 수정 한 다음 분류자를 교육 할 수 있습니다. 이것은 반복적 인 과정이며, 기억해야 할 중요한 것은 "쓰레기통에 버려지는 쓰레기"입니다. 다시 말해서, 훈련 코퍼스가 잘못 되었다면 분류 자의 정확성을 기대할 수 없습니다.

+0

두 개의 키워드 목록을 만드는 것은 긍정적이고 부정적인 키워드에 대해 두 개의 목록을 저장해야 함을 의미합니까? 그러나 나는 긍정적이거나 부정적 인 문서에 태그를 추가하려고한다. 그게 가능하니? –

+0

키워드 목록이 2 개인 아이디어는 수동으로 작업하는 대신 문서를 자동으로 태그 지정하는 데 사용할 수 있다는 것입니다. – Jacob