2013-05-03 1 views
1

저는 NLTK에 매우 익숙하며 뭔가하려고합니다.NLTK에서 두 텍스트 코퍼스 사이의 공통 단어 찾기

두 본문간에 일반적인 단어를 찾는 가장 좋은 방법은 무엇입니까? 기본적으로 text1과 text2라는 긴 텍스트 파일이 있습니다. NLTK를 사용하여 두 파일에 나타나는 공통 단어를 찾고 싶습니다.

그렇게 할 수있는 직접적인 방법이 있습니까? 최선의 접근 방법은 무엇입니까?

감사합니다.

+0

보통, 코퍼스는 텍스트의 집합을 의미한다. 두 개의 텍스트가 아니라 두 개의 컬렉션을 처리하고 있습니다. – Spaceghost

+0

오, 그래. 감사! – Apoorva

답변

0

당신이 언어 처리에 관해서는 뭔가 특별한 일을 할 필요가없는 한, 당신은 NLTK을 필요로하지 않는다는 것을 나에게 보인다

words1 = "This is a simple test of set intersection".lower().split() 
words2 = "Intersection of sets is easy using Python".lower().split() 

intersection = set(words1) & set(words2) 

>>> set(['of', 'is', 'intersection']) 
+1

오 대단합니다. 나는 파이썬도 처음이다. 이것은 도움이되었습니다. 감사합니다 사이먼! – Apoorva

관련 문제