제목이 완전한 의미인지 확실하지 않으므로 미안합니다. 저는 Machine Learning을 처음 사용하고 Scikit 및 의사 결정 트리를 사용하고 있습니다.Python - 의사 결정 트리 및 고유 레이블/기능 처리
내가 원한다. 모든 입력을 받아 클라이언트 ID 인 고유 기능을 포함하고 싶습니다. 이제 클라이언트 ID는 고유하며 의사 결정 트리 분석에서 기능이 일반적인 방식으로 합산 될 수 없습니다. 이제는 트리가 클라이언트 ID를 다른 정수 값으로 가져간 다음 예를 들어 클라이언트 ID가 430 미만인 경로를 분기하는 것은 430 이상의 경로와 다른 경로로 이동한다는 것입니다. 이는 정확하지 않고 원하는 것이 아닙니다. 할 것. 제가하고 싶은 일은 의사 결정 트리가 특정 분야가 그런 방식으로 분석 될 수없고 각 고객이 그들 자신의 가지를 가질 것이라는 것을 이해하는 것입니다. 의사 결정 나무로 가능합니까?
몇 가지 해결 방법이 있습니다. 그 중 하나는 각 클라이언트마다 고유 한 의사 결정 트리를 개발하는 것이지만 악몽 일 수 있습니다. 또 다른 해결 방법을 통해 800 개의 클라이언트가 있다고 가정 해 보겠습니다. 비트 필드가있는 800 개의 기능을 만들 겠지만 이것은 또한 미친 짓입니다.
예, 설명 된 두 번째 옵션 (하나의 핫 인코딩)은 사용자의 설명에 대해 제안하는 것입니다. –
이것은 많은 작업처럼 보입니다. 수천 개의 클라이언트로 확장해야하는 경우 가장 좋습니다 방법? – HMan06
팬더를 사용하고 있기 때문에 get_dummies 함수를 사용하는 것이 가장 좋습니다. – HMan06