2012-11-25 3 views
0

분류 자 ​​뒤에있는 이론에 대한 나의 이해가 깊지 않으므로 제 질문이 당신에게 순진 해 보이면 용서해주십시오.가독성 분류 기준으로 접근

목표 : 임의의 텍스트가 주어진 경우 연령대에 따라 즉 가독성에 따라 분류합니다. 그래서 내 수업은 5-6, 6-8, 8-10, 10-14, 14-16, 어른과 같은 연령대가 될 것입니다. 이상적으로 각 텍스트 문서는 해당 클래스 각각에 대한 확률을 가져야합니다 (가장 가능성이 높은 클래스는 물론).

현재 상태 : 기능 추출기가 있습니다. 그것은 약 30 개의 피쳐, 거의 모든 숫자와 함께 텍스트 문서 당 특징 벡터를 출력하며, 그 중 몇 개는 명목상의 것입니다. 격자 검색으로 최적화 된 weka에 포함 된 SMO SVM을 사용하여 Weka로 모델을 연습하는 실험을하고 있습니다. libSVM을 사용할 수도 있지만, 지금은 중요하지 않습니다.

질문 :

  1. 당신은 특히 당 수준의 확률로 원하는 출력을 WRT,이 작업에 대해 서로 다른 분류를 사용 하시겠습니까?
  2. 훈련 데이터가 멋진 분리 된 범위로 나누어지지 않습니다. 이 범위는 겹칠 수 있습니다. 일부 텍스트는 (수동으로) 10-12 범위로 분류되고, 다른 텍스트는 다른 소스에서 11-13 또는 8-13 등으로 분류됩니다. 어떻게 처리합니까? 필터링/교육을 수정 하시겠습니까? 그것들을 수정하지 않고 결과를 다르게 해석합니까?

답변

1

분류 대신 회귀 분석을 시도해 볼 수 있습니다. 기본적으로 각 문서를 읽는 데 "이상적인"나이를 예측하려고합니다.

이렇게하면 클래스를 표현하는 방법이 완전히 명확하지는 않지만 다양한 연령대를 처리 할 수 ​​있습니다. 평균을 취하는 것으로 시작하기 때문에 8-12의 경우 정답은 10 등입니다 "어른"에 대한 가치로 조금 놀아 라.)

내 생각에 모델을보다 견고하게 추정 할 수 있고 결과를 멋지게 해석 할 수 있습니다. 8-12와 12-15에 대한 예제가 많고 알고리즘이 11.9를 예측할 경우이 알고리즘은 8-12 범위에서 "간신히"이해할 수 있다고 말할 수 있습니다.

+0

감사합니다. @ales_t. 회귀 분석이 연속 변수의 가치를 예측한다는 것을 정확히 이해합니까? 그렇다면 그러한 예측의 확률 (또는 확신)을 얻을 수도 있습니까? 범주 형 변수를 사용하고 싶다면 로지스틱 회귀 분석을 사용하는 것이 좋습니다. – cornuz