nltk를 사용하여 텍스트 문서 분류하기

저는 현재 전자 메일 패키지를 사용하여 메시지 본문을 제거한 다음 스포츠, 정치, 기술 등과 같은 레이블을 사용하여 전자 메일을 분류하는 프로젝트를 진행하고 있습니다. ..nltk를 사용하여 텍스트 문서 분류하기

이메일 본문에서 메시지 본문을 성공적으로 제거 했으므로 분류 작업을 시작하려고합니다. 필자는 문서를 양성 및 부정적 리뷰로 분리하는 move_reviews 코퍼스를 사용하여 정서 분석 분류의 고전적인 예를 수행했습니다.

저는이 방법을 프로젝트에 어떻게 적용 할 수 있을지 궁금합니다. 스포츠, 기술, 정치, 오락 등 다양한 수업을 만들 수 있습니까? 나는 여기에 도로 블록을 쳤고 올바른 방향으로 추진력을 찾고있다.

이것이 적절하지 않은 질문이 있으면 언제든지 삭제하겠습니다.

출처

2016-11-27 Cody

gensim 파이썬 라이브러리를 살펴 보았습니까? – amirouche

분류를 시작하려면 먼저 데이터 세트에 레이블을 지정해야합니다. 수동 주석 또는 규칙 기반 일 수 있습니다. 물론 당신은 당신의 데이터 셋을위한 다중 클래스를 생성 할 수 있습니다. 당신이 멀티 클래스를 가지고 있는지에 대한 귀하의 사례 유형의 이메일을 위해. 그런 다음 데이터를 학습하고 분류 할 수 있습니다. cv 또는 열차 테스트 분할 중 하나를 사용하십시오. 영화 평론을 위해 한 것처럼. –

다른 언급과 같이 gensim은 주제 모델링을 수행합니다. 링크 : https://radimrehurek.com/gensim/tutorial.html Gensim은 문서와 클러스터 사이의 의미 상 유사점을 찾습니다. 특정 클러스터의 문서를 검토하여 버킷을 스포츠, 정치, 기술 등으로 식별 할 수 있습니다. –

분류자를 만들려면 찾고있는 클래스로 훈련 데이터 세트가 필요합니다.

가 brown corpus 당신이 말하는 카테고리의 많은과 정액 텍스트입니다 기존의 데이터 세트를

를 사용하여 설정합니다

자신의 데이터를 작성 : 귀하의 경우에는, 당신도 할 수 있습니다 약. 의미가 비슷한 텍스트를 찾으려면 gensim과 같은 패키지를 사용하여 이메일을 분류하는 시작점이 될 수 있습니다.

전자 메일을 분류하면 보이지 않는 각 전자 메일의 레이블을 예측하도록 시스템을 교육 할 수 있습니다.

출처

2016-11-29 10:47:26

고마워요, 슈퍼 도움이! – Cody

텍스트 분류 작업은 감독 컴퓨터 학습 문제입니다. 즉, 데이터 라벨을 지정해야합니다. movie_review 문제에 접근했을 때 + 1/-1 라벨을 사용하여 정서 분석 시스템을 교육했습니다.

다시 문제 방법 :

당신이 당신의 데이터 레이블이있는 경우
이 같은 방식으로 문제에 접근. scikit-learn 라이브러리를 사용하는 것이 좋습니다. 다음에서 영감을 얻을 수 있습니다. Scikit-Learn for Text Classification
라벨이없는 경우 감독되지 않은 학습 방식을 시도 할 수 있습니다. 가지고있는 범주 (전화 번호 K)에 대한 단서가 있다면 KMeans 접근 방식을 시도해 볼 수 있습니다. 즉, K 카테고리의 이메일을 그룹별로 유사하게 그룹화합니다. 유사한 이메일은 비슷한 버킷으로 끝납니다. 그런 다음 클러스터를 손으로 검사하고 레이블을 작성하십시오. 가장 유사한 클러스터에 새 전자 메일을 할당합니다. Text Clustering Recipe

제안 : 이메일에 대한 얻기 라벨은 당신이 생각하는 것보다 쉬울 수는 KMeans 도움이 필요한 경우이 빠른 조리법을 확인합니다. 예를 들어 Gmail을 사용하면 폴더 정보가 포함 된 이메일을 내보낼 수 있습니다. 이메일을 분류 한 경우이 기능을 활용할 수 있습니다.

출처

2016-11-29 20:53:28 bogs

nltk를 사용하여 텍스트 문서 분류하기

답변

관련 문제