0

내 레이블의 등급이 0 - 100이고 1 단위로 증가하는 분류 문제가 있습니다 (예 : 1, 2, 3, 4).레이블의 숫자 범위를 포함하는 다중 레이블 분류

나는 각 행에 이름, 텍스트 코퍼스 및 등급 (0 - 100)이있는 데이터 세트가 있습니다.

텍스트 코퍼스에서 분류기에 입력 할 수있는 기능을 추출하려고합니다.이 분류기는 행 (0 - 100)에 해당 등급을 출력합니다.

기능 선택을 위해 기본 단어 모음으로 시작할 생각입니다. 그러나 제 질문은 분류 알고리즘에 있습니다. 이런 종류의 문제를 지원하는 sci-kit 분류 알고리즘이 있습니까?

나는 http://scikit-learn.org/stable/modules/multiclass.html을 읽었지 만 설명 된 알고리즘은 완전히 이산 된 레이블을 지원하는 것처럼 보이지만 연속 레이블 집합을 가지고 있습니다.

편집 : 내 평가를 비우는 경우는 어떻게됩니까? 예를 들어 각각 10 개의 레이블을 가질 수 있습니다.

+2

클래스가 연속적이라는 것을 인정하는 경우 회귀를 사용하지 않는 이유는 무엇입니까? –

+0

아, 회귀에 익숙하지 않은데,이 문제에 대한 자연스러운 해결책 인 것 같습니다. – jeffrey

+2

예, 타겟 변수가 일종의 연속 값일 때 편차는 중요하지 않습니다 (37 대신 36을 예측해도 괜찮지 만 11 대신 90을 예측하는 것은 좋지 않습니다). 당신이 정말로하고 싶은 것은 잘못된 가치를 예측할 확률을 최소화하는 것이지만 먼 가치를 예측할 확률입니다. 그리고 이것은 회귀 알고리즘이 사용되는 것입니다. 회귀 분석기로 이름이 끝나는 모든 알고리즘이 작동합니다. –

답변

1

분류 대신 다중 변형 회귀를 사용할 수 있습니다. U는 텍스트 코퍼스에서 n-gram 기능을 클러스터링하여 사전을 구성하고이를 사용하여 기능 세트를 구성 할 수 있습니다. 이 기능 세트를 사용하면 출력이 연속 값이 될 수있는 회귀 모델을 학습 할 수 있습니다. 출력 실수를 반올림하여 1-100의 이산 레이블을 얻을 수 있습니다.

+0

아, 다중 변량 회귀가 실제로 더 자연스러운 해결책 인 것 같습니다. scikit-learn 회귀가 이것을 처리합니까? 나는 로지스틱 회귀가 분류 자 ​​알고리즘이고 당신이 말하는 것을 가정하지 않는다. – jeffrey

+1

예, 로지스틱 회귀는 분류 알고리즘입니다. 선형 회귀 또는 능선 회귀 또는 임의의 산림 회귀를 시도 할 수 있습니다. –

+1

선형 및 다항 회귀에 대해서는 scikit-learn.org/stable/modules/linear_model.html을보십시오. u는 다른 다항식 모델로 시도해야 할 수도 있습니다. 나는 처음에 선형 모델로 시작하고 나중에 다른 다항식 변형을 시도해야한다고 생각합니다. 다른 제안은 회귀 숲을 찾는 것입니다. –

1

OneHotEncoder으로 데이터를 사전 처리하여 1 : 100의 특징을 간격 [1..100의 각 값에 해당하는 100 개의 이진 특성으로 변환 할 수 있습니다 ]. 그런 다음 100 개의 레이블을 가지고 여러 분류 기준을 배웁니다.

하지만 회귀를 대신 사용하는 것이 좋습니다.

+0

OneHotEncoder를 적용하면 어떤 이점이 있습니까? scikit-learn에서 분류 자 ​​중 하나와 함께 0-100을 직접 사용할 수 있습니다. –

관련 문제