2010-03-21 2 views
4

콘텐트 어 그리 게이터를 구축했으며 현재 트렌드를 나타내는 태그 클라우드를 추가하고 싶습니다.태그 구름을 만드는 영리한 방법? - Python

불행히도 이것은 매우 복잡합니다. 각 기사의 컨텍스트를 나타내는키워드를 찾아야합니다. 예를 들어, 단어에 대한

는 I로, , 놀라운, 좋은 문맥과 아무 관계가 없다,했다.


도움을 많이 받으실 수 있습니다! :)

답변

9

사용 NLTK는, 그 의 불용어 코퍼스 특히 : 일반 콘텐츠 단어 게다가

, 중요한 문법적인 기능을 수행하지만,에 가능성이 단어 정지에게라는 단어의 또 다른 클래스가 입니다 자신이 흥미 롭습니다. 여기에는 전치사, 보완 자 및 결정자가 포함됩니다. NLTK에는 Stopwords 코퍼스가 번들로 제공되며 1135 개의 다른 개 언어 (영어 포함)에 걸쳐 2400 중지 단어 목록이 함께 제공됩니다.

+0

@Alex : 멋진 답변에 감사드립니다! 하지만 ** 좋은 ** ** ** 위대한 ** 등등과 같은 형용사를 처리 할 수 ​​있습니까? – RadiantHex

+2

@Ladiant, 형용사는 의미를 전달하기 때문에 정지 단어가 아닙니다. 예를 들어 "만리장성"은 중국에서 매우 구체적이고 긴 벽이며 "벽"은 분홍색 플로이드 앨범입니다. 형용사를 건너 뛰고 싶다면 (불확실한 결정) NLTK를 사용하여 "Parts-of-Speech tagging"을 http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk- part-1/(물론 파트 2와 3을 읽음). –

2

NLTK은 관련 용어를 선택하는 데 도움이됩니다.

관련 문제