R 패키지 FSelector를 제대로 사용하는 방법, 특히 해당 information.gain 함수를 이해하려고합니다. According to the documentation :FSelector 정보는 무엇을 측정합니까?
information gain = H(class) + H(attribute) - H(class,attribute)
이러한 수량은 무엇을 의미합니까? 그리고 그것들은 Information Gain의 표준 정의와 어떻게 관련이 있습니다. 내가 아는 한, attribute = H(S) - sum p(S_i)H(S_i)
에 의한 정보 이득 H(.)
은 엔트로피입니다. S
은 분할되지 않은 집합입니다. S_i
은 속성에 의해 유도 된 S
의 서브 세트입니다. 및 p(S_i) = |S_i|/|S|
.
정보 이득이라는 개념을 사용하는 다른 패키지가 있는지 알고 싶습니다.
도움 주셔서 감사합니다.
이 이력서에 대한이 답변은 관심 대상이 될 수 있습니다. http://stats.stackexchange.com/questions/161429/why-would-perfectly-similar-data-have-0 -mutual-information/161443 # 161443 – Tim