2012-05-18 3 views
-1

키 값 쌍 목록이 있습니다. 각 키마다 값이 얼마나 고유한지보고 싶습니다. 예를 들어, 특정 키 k1의 경우 모든 값이 동일 할 수 있습니다. (최상의 경우). 키 k2의 경우 값의 절반은 한 유형이고 나머지 절반은 다릅니다. . . 마찬가지로 키 kx의 경우 값이 일치하지 않습니다 (최악의 경우).실세계 알고리즘 - 입력 값의 고유성 측정

위의 내용을 기반으로 각 키에 랭크 (또는 백분율, 무엇이든)를 부여하고 최종 순서가 있으므로 많은 다른 값을 갖는 것들을 필터링 할 수 있습니다. 또는 퍼센트).

필자는 데이터 마이닝 과정에서 배웠던 개념과 다소 관련이 있다고 생각하지만 효과적으로 리콜 할 수는 없습니다.

감사합니다.

+2

시도한 것을 특정 문제와 함께 보여줄 수 있습니까? –

+0

내가 겪고있는 유일한 문제는이 문제의 범주가 무엇인지를 생각할 수 없다는 것입니다. 나는 이것에 어떤 해결책도 정말로 원하지 않는다. – dreamer13134

+0

음, 그렇게 많이 분류 되나요? 어떤 유형의 카테고리를 생각하고 계셨습니까? –

답변

-1

아마도 이것을 위해 Information Theory을 사용할 수 있습니다.

각 키에 대해 entropy 값을 계산할 수 있습니다. 엔트로피가 높을수록 키의 값이 다양합니다. 이것을 사용하여 키의 순위를 매길 수 있습니다.

다음 문서에서는 몇 가지 관련 항목에 대해 설명합니다. Calculating Entropy for Data Mining.

+0

Üli Maurer의 "무작위 비트 생성기에 대한 범용 테스트"는 기본적으로 특별한 종류의 엔트로피 계산기로 사용될 수 있으며 필요한 확장이 쉽게 구현 될 수 있습니다. – JimmyB

-1

데이터 마이닝 용어가 http://en.wikipedia.org/wiki/Association_rule_learning 인 경우 인덱스를 값을 예측하는 수단으로 간주 할 수 있습니다.이 경우 인덱스에 대한 가장 자주 나오는 값의 백분율을 신뢰하는 것이 좋습니다. 두 개의 무작위로 선택된 값이 동일 할 확률을 볼 수도 있습니다. 즉, 값의 빈도의 제곱 또는 유사한 특성을 갖지만 대수를 취하는 두 번째의 합입니다.

관련 문제