내 레이블의 등급이 0 - 100이고 1 단위로 증가하는 분류 문제가 있습니다 (예 : 1, 2, 3, 4).레이블의 숫자 범위를 포함하는 다중 레이블 분류
나는 각 행에 이름, 텍스트 코퍼스 및 등급 (0 - 100)이있는 데이터 세트가 있습니다.
텍스트 코퍼스에서 분류기에 입력 할 수있는 기능을 추출하려고합니다.이 분류기는 행 (0 - 100)에 해당 등급을 출력합니다.
기능 선택을 위해 기본 단어 모음으로 시작할 생각입니다. 그러나 제 질문은 분류 알고리즘에 있습니다. 이런 종류의 문제를 지원하는 sci-kit 분류 알고리즘이 있습니까?
나는 http://scikit-learn.org/stable/modules/multiclass.html을 읽었지 만 설명 된 알고리즘은 완전히 이산 된 레이블을 지원하는 것처럼 보이지만 연속 레이블 집합을 가지고 있습니다.
편집 : 내 평가를 비우는 경우는 어떻게됩니까? 예를 들어 각각 10 개의 레이블을 가질 수 있습니다.
클래스가 연속적이라는 것을 인정하는 경우 회귀를 사용하지 않는 이유는 무엇입니까? –
아, 회귀에 익숙하지 않은데,이 문제에 대한 자연스러운 해결책 인 것 같습니다. – jeffrey
예, 타겟 변수가 일종의 연속 값일 때 편차는 중요하지 않습니다 (37 대신 36을 예측해도 괜찮지 만 11 대신 90을 예측하는 것은 좋지 않습니다). 당신이 정말로하고 싶은 것은 잘못된 가치를 예측할 확률을 최소화하는 것이지만 먼 가치를 예측할 확률입니다. 그리고 이것은 회귀 알고리즘이 사용되는 것입니다. 회귀 분석기로 이름이 끝나는 모든 알고리즘이 작동합니다. –