내가 물어 보려는 내용은 Sentiment analysis with NLTK python for sentences using sample data or webservice?과 매우 비슷하게 들릴지 모르지만, 나는 텍스트에서 문장의 구문 분석 및 토큰 화를 다한다. 내 질문은 내가 NLTK 영화 리뷰의 예에서 본 지금까지 무엇이든간에 예감정 분류 NLTK를 사용하여 자신의 텍스트 데이터
- 내 문제에 가장 유사한 것으로 보인다이지만, 두 개의 폴더 POS 및 NEG하고있다으로 movie_review 훈련 텍스트 형태로 이미 텍스트가 저장됩니다. 거대한 텍스트를 분류하려면 어떻게해야합니까? 데이터를 수동으로 읽고 두 개의 폴더에 저장합니까? 그게 코퍼스가 되는가? 그 후 예에서 movie_review 데이터처럼 작업 할 수 있습니까?
위의 질문에 대한 대답이 '예'인 경우 어떤 도구로도 작업 속도를 높일 수있는 방법이 있습니까? 예를 들어, "Monty Python"이 들어있는 텍스트 만 사용하고 싶습니다. 그런 다음 수동으로 분류 한 다음 pos 및 neg 폴더에 저장합니다. 그게 효과가 있니?
날
두 개의 키워드 목록을 만드는 것은 긍정적이고 부정적인 키워드에 대해 두 개의 목록을 저장해야 함을 의미합니까? 그러나 나는 긍정적이거나 부정적 인 문서에 태그를 추가하려고한다. 그게 가능하니? –
키워드 목록이 2 개인 아이디어는 수동으로 작업하는 대신 문서를 자동으로 태그 지정하는 데 사용할 수 있다는 것입니다. – Jacob