NLTK에서 두 텍스트 코퍼스 사이의 공통 단어 찾기

저는 NLTK에 매우 익숙하며 뭔가하려고합니다.NLTK에서 두 텍스트 코퍼스 사이의 공통 단어 찾기

두 본문간에 일반적인 단어를 찾는 가장 좋은 방법은 무엇입니까? 기본적으로 text1과 text2라는 긴 텍스트 파일이 있습니다. NLTK를 사용하여 두 파일에 나타나는 공통 단어를 찾고 싶습니다.

그렇게 할 수있는 직접적인 방법이 있습니까? 최선의 접근 방법은 무엇입니까?

감사합니다.

출처

2013-05-03 Apoorva

보통, 코퍼스는 텍스트의 집합을 의미한다. 두 개의 텍스트가 아니라 두 개의 컬렉션을 처리하고 있습니다. – Spaceghost

오, 그래. 감사! – Apoorva

당신이 언어 처리에 관해서는 뭔가 특별한 일을 할 필요가없는 한, 당신은 NLTK을 필요로하지 않는다는 것을 나에게 보인다

이

words1 = "This is a simple test of set intersection".lower().split() 
words2 = "Intersection of sets is easy using Python".lower().split() 

intersection = set(words1) & set(words2) 

>>> set(['of', 'is', 'intersection'])

출처

2013-05-03 05:19:03

오 대단합니다. 나는 파이썬도 처음이다. 이것은 도움이되었습니다. 감사합니다 사이먼! – Apoorva

NLTK에서 두 텍스트 코퍼스 사이의 공통 단어 찾기

답변

관련 문제