2010-01-03 3 views
7

나는 "Brittney Spears"문제에 초점을 맞춘 this question을 보았습니다. 그러나 나는 약간 다른 질문을 가지고있다. 알고리즘으로 어떤 단어 나 문구를 순위 결정해야하는지 결정하는 방법은 무엇입니까? 예를 들어, "마이클 잭슨이 죽었다"라는 트윗을 보내면 "마이클 잭슨"을 뽑아 내고 "죽지"않았다는 것을 어떻게 알 수 있습니까?트위터의 트렌드 주제가 트윗에서 추출 할 단어를 어떻게 결정합니까?

아니면 알렉스 볼드윈과 스티븐 볼드윈이 그날 뉴스에 올랐다는 이유로 많은 트윗에서 언급되었습니다. "볼드윈 (Baldwin)"을 꺼내는 대신에 두 이름을 다르게 취급하는 것을 어떻게 알 수 있습니까?

순식간에이 문제가 NP 완료된 것으로 나타났습니다 (트윗의 모든 잠재적 구문을 다른 모든 트윗의 모든 잠재적 구문과 비교해야합니다).

답변

2

이 문제에 대한 일반적인 해결책은 "term frequency, inverse document frequency" (tf-idf)입니다.

매우 자주 볼 수 없기 때문에 다른 단어보다 관련성이 높은 단어/용어를 찾는 통계적 방법입니다. 이 경우, "Michael Jackson"이라는 이름은 일반적인 영어 단어 "사망"에 비해 매우 낮은 빈도를 가질 수 있습니다.

알렉스 볼드윈 대 스티븐 볼드윈 (Steven Baldwin)은 part-of-speech tagging 동안 분리되어 식별됩니다. 개별 고유 명사로 태그가 지정됩니다.

2

나는 일반적인 단어 집합을 찾습니다. 또한 그들이 참조하고있는 것으로 보입니다 http://www.whatthetrend.com/

이 외에도 약간의 인간 통제가 관련 될 수 있습니다.

관련 문제