0

여기 내 문제입니다. 다중 타겟 의사 결정 트리 알고리즘을 구현해야합니다. 다중 타겟은 라벨이 바이너리는 아니지만 연속적이고 범주 형일 수있는 다중 라벨 학습의 확장입니다. 예를 들어 다중 레이블 분류 문제에 대한 레이블 벡터는 {1,0,1,0,0,0,1}처럼 보일 수 있지만 다중 대상의 경우 {2,35,3, -2, 24}. 내 문제는 이것입니다. 내가 3 개의 불연속 값을 갖는 레이블을 가지고 있다면 벡터에서 어떻게 표현할 수 있습니까? 나는 job이라는 레이블이 있으며 3 가지 값, 정비사, 교사 및 운동 선수가 있다고 가정 해 보겠습니다. 이 레이블을 벡터에서 사용하려면 어떻게 코딩 할 수 있습니까? 결정 트리의 각 노드에서 내 분할을 찾으려면이 노드의 모든 레이블 벡터의 평균 벡터를 계산해야합니다. (분산 방법 방정식을 사용하여 분할을 찾습니다.) 바이너리 라벨이 있다면 0과 1을 추가해도 아무런 문제가 없기 때문에 쉽습니다. 이 세 가지 작업을 0,1,2로 코딩하면 레이블이있는 레이블 벡터를 추가하면 작업 메카닉이있는 벡터를 추가하는 것보다 많은 것으로 간주되고 평균 벡터가 부정확하기 때문에 문제가됩니다.다중 대상 의사 결정 트리

이 예제를 사용하십시오. 나는이 3 개 레이블이 :

  job: {mechanic,teacher,athlete} 
      married:{yes,no} 
      age: continuous value 

결혼 라벨이 {0,1}와 연속 번호와 같은 나이 레이블로 코딩 할 수 있다고 쉽다. 하지만 작업 레이블을 어떻게 코딩 할 수 있습니까? {0,1,2}로 코딩하면 다음 문제가 발생합니다. {0,0,45} 노드에 ​​2 개의 레이블 벡터가 있다고 가정 해보십시오. {0,0,45}는 45 세의 정비공이고 {2,1,48}은 결혼하지 않은 45 세의 운동 선수에 해당합니다. 평균 벡터는 {1,0.5,46.5}입니다. 이 벡터를 사용하면 해당 노드에 속하는 인스턴스의 나이가 46.5 인 것으로 예상 할 수 있습니다. 결혼하지 않은 인스턴스 (0.5보다 크거나 같은 규칙이 있음)가 있다고 말하면됩니다. 직업은 교사입니다. 교사 직업은 완전히 틀린 반면 다른 직업은 괜찮습니다. 이제 범주 형 레이블을 코딩하는 문제가 나타납니다. 도움이나 조언 ??? 감사합니다 : D

+0

이유없이 downvoting 해 주셔서 감사합니다. 정말로 책임자 여야합니다. – jojoba

답변

1

방법, 예를 들어, 기능의 모든 이산 값을 복용하고 값보다 2 이상의 경우 기능에 그들 모두를 변환에 대해 :

job: {mechanic, teacher, athlete} 
married:{yes, no} 
age: continuous value 

는 5 차원 vecor가 발생합니다

(기계공 0/1, 교사 0/1, 운동 선수 0/1, 기혼 0/1, 0-inf)

+0

예 해결책 일 수 있습니다. :디. 그러나 이것은 아마도 사람이 기계공이고 교사라는 것을 예측할 수 있기 때문에 예측의 많은 후 처리가 필요할 것입니다. 당신은 인덱스 0에서 인덱스 2 레이블이 동일한 레이블에서 및 1에 가장 가까운 할당하는 방법을 저장해야합니다. 그러나 나는 어떤 게시물이나 데이터 및 작업을 할 일이없는 어떤 솔루션을 생각할 수 없다. 이 솔루션은 아마도 적은 노력을 필요로합니다. 고마워. D. 앞으로 몇일 안에 다른 해결책이있을 경우에 대비하여이 게시물을 계속 열어 두겠습니다. D – jojoba

+0

http://stats.stackexchange.com/ – clyfe

+0

에 운이 더 좋을지도 모릅니다 감사합니다. D. 나는 한번 살펴 보겠다. – jojoba

관련 문제