2013-03-14 3 views
1

단어 목록이 있습니다. 두 단어의 동시 발생을 고려하여 관련성을 계산하고 싶습니다. 논문에서 나는 피어슨 카이 제곱 테스트을 사용하여 계산할 수 있음을 발견했습니다. 또한 chi-sqare 값을 계산하기 위해 nltk.BigramAssocMeasures.ch_sq()을 찾았습니다.NLTK BigramAssocMeasures.ch_sq 사용 방법

내 필요에 사용할 수 있습니까? nltk를 사용하여 카이 제곱 값을 찾는 방법은 무엇입니까?

답변

3

this blog from Streamhacker을 살펴보면 코드 예제에 대한 설명이 잘 나와 있습니다.

정보 획득을위한 최상의 통계 중 하나는 chi square입니다. NLTK는 이것을 메트릭 패키지의 BigramAssocMeasures 클래스에 포함합니다. 이를 사용하려면 먼저 각 단어에 대해 몇 가지 주파수를 계산해야합니다. 전체 주파수와 각 클래스 내의 빈도입니다. 이 작업은 단어의 전체 빈도를위한 FreqDist와 조건이 클래스 레이블 인 ConditionalFreqDist를 사용하여 수행됩니다. 이 숫자가 생기면 BigramAssocMeasures.chi_sq 함수로 단어 점수를 매기고 스코어로 단어를 정렬하고 상위 10000을 가져갈 수 있습니다. 그런 다음이 단어를 집합에 넣고 우리의 기능 선택 함수에서 집합 구성원 테스트를 사용하여 집합에 나타나는 단어 만 선택하십시오. 이제 각 파일은 이러한 높은 정보 단어의 존재에 따라 분류됩니다.

+0

+1 링크 내용을 요약하면 – rpax