2012-04-18 3 views
-1

나는 텍스트 분류에 대해 읽었으며 분류를 위해 사용할 수있는 몇 가지 자바 도구를 발견했다. 그러나 나는 여전히 궁금해한다 : 텍스트 분류가 문장 분류와 같은가!문장 분류 (분류)

문장 분류에 중점을 둔 도구가 있습니까?

+1

텍스트를 하나의 문장으로 된 여러 텍스트로 분할하는 것은 어떻습니까? 그럼 당신은 텍스트 분류를 사용할 수 있습니다 :) – Thomas

+1

부엉이, 이것은 좋은 생각입니다. 그래서 텍스트 분류를위한 동일한 도구는 문장 분류를 위해서도 사용할 수 있습니다! –

+0

"텍스트"는 단어로 구성된 한 단어에서 소설에 이르는 모든 것을 총칭하는 용어입니다. – mbatchkarov

답변

5

'텍스트 분류'와 '문장 분류'는 공식적인 차이가 없습니다. 결국, 문장은 텍스트 유형입니다. 그러나 일반적으로 사람들이 텍스트 분류에 관해 이야기 할 때, IMHO는 에세이, 리뷰 또는 스피치와 같은 텍스트의 더 큰 단위를 의미합니다. 정치인의 연설을 민주당이나 공화당으로 분류하는 것은 트윗을 분류하는 것보다 훨씬 쉽습니다. 인스턴스 당 텍스트가 많으면 각 교육 인스턴스를 짜내서 모든 정보를 얻을 필요가 없으며 단어 기반의 순진한 베이 즈 모델을 통해 훌륭한 성과를 거둘 수 있습니다.

기본적으로 기성품 weka 분류기를 문장 모음에 버리면 필요한 성능 수치를 얻지 못할 수도 있습니다. POS 태그, 구문 분석 트리, 단어 순서 지정, ngram 등을 사용하여 문장의 데이터를 보강해야 할 수도 있습니다. 작성 시간, 작성 위치, 문장 작성자의 속성 등과 같은 관련 메타 데이터도 가져와야합니다. 정확하게 당신이 분류하려고하는 것은 무엇입니까? 당신을 위해 잘 될 특징들은 당면 문제에 대해 직관적으로 의미가 있어야합니다.

+0

덕분에 adi92,이 모델을 적용하기 위해 따라 할 수있는 자세한 자습서가 있습니까 –

+0

기계 학습 작업에는 두 부분이 있습니다 - 1) 올바른 기능 즉, 각 교육 인스턴스를 설명하는 숫자 벡터를 찾습니다 (사례 - 문장) 2) 모든 특징 벡터를 사용하여 모델을 훈련시킨다. 내 조언은 기능 선택 (예 : 1 번 지점)에 관한 것이 었으며 사용할 모델에 대해서는 전혀 언급하지 않았습니다. 모델을 염두에 두지 않으면 Naive Bayes가 좋은 출발점이 될 것입니다. 그것의 어려운 나를 위해 당신이 이미 알고있는 ML, 수학 및 프로그래밍의 양, 그리고 당신이 작업하고있는 시간 제약을 모른 채 자습서를 추천합니다. –

+1

그냥 주위에 검색 좀하고 Naive 베이즈 의미하는이 아주 기본적인 소개 발견 http://bionicspirit.com/blog/2012/02/09/howto-build-naive-bayes-classifier.html –