5

텍스트를 분류해야하고 텍스트 blob 파이썬 모듈을 사용하여이를 달성해야합니다. Naive Bayes 분류기/의사 결정 트리 중 하나를 사용할 수 있습니다. 나는 아래 언급 한 점들에 대해 우려하고 있습니다.파이썬에서 텍스트 분류 - (NLTK 문장 기반)

1) 나는 문장으로 인수가 필요합니다/인수가 아님 : 저는 두 개의 분류자를 사용하고 적절한 데이터 세트를 사용하여 모델을 훈련시키고 있습니다. 내 질문에 대한 모든 키워드만으로 모델을 훈련해야합니까? 또는 가능한 모든 인수와 논증을 사용하여 데이터 집합을 훈련시킬 수 있습니다 샘플 문장? 텍스트 분류 정확도와 검색 시간 측면에서 가장 좋은 접근 방법은 무엇입니까?

2) 분류가 인수가 아닌/인수가 아니기 때문에 어떤 분류 기준에서 정확한 결과를 가져올 수 있습니까? Naive Bayes/Decision tree/Positive Naive Bayes입니까?

미리 감사드립니다.

답변

1

이상적으로는 it is said that the more you train your data, the 'better' your results이지만 테스트 한 후에는 실제로 달라지며 준비한 실제 결과와 비교됩니다.

질문에 대답하기 위해 키워드로 모델을 훈련하면 인수가 아닐 수도있는 너무 넓은 결과가 나올 수 있습니다. 그러나 실제로, 당신은 그것을 무언가와 비교해야만합니다. 그래서 여러분은 어떤 인자가 따르는 것처럼 보이는 문장 구조 (어떤 종류의 패턴)로 여러분의 모형을 훈련시키고 자한다면, 인자가 아닌 문장 구조를 제거 할 수도 있습니다. 다시 말하지만, 이것을 수행 한 다음 이전 모델보다 높은 정확성을 얻는 지 테스트하십시오.

다음 질문에 답하십시오 : 텍스트 분류 정확도와 검색 시간면에서 가장 좋은 접근 방법은 무엇입니까? 정말 당신이 사용하는 데이터에 따라 달라집니다. 모델이 높은 정확도를 달성했는지 확인하기 위해 교차 검증을 수행해야하기 때문에이 질문에 실제로 대답 할 수 없습니다. 분명히, 당신이보고있는 기능이 많을수록 학습 알고리즘의 성능이 떨어집니다. 분석 할 텍스트의 기가 바이트를 다루는 경우 Mapreduce를 사용하여이 작업을 수행하는 것이 좋습니다.

학습 모델로 SVM을 확인하고 학습 모델 (순진한 베이, 긍정적 인 순진 베이 및 의사 결정 트리)을 사용하여 테스트하고 어느 것이 더 나은지 알아볼 수 있습니다.

희망이 도움이됩니다.

관련 문제