n 개의 텍스트 문서 중에서 유사한 단어 검색

문서가 n 개 있고이 문서에 포함 된 일반적인 단어를 찾고 싶습니다. 예를 들어 (n-3) 개의 문서에 "web"이라는 단어가 포함되어 있다고 말하고 싶습니다.n 개의 텍스트 문서 중에서 유사한 단어 검색

확실히 기본 데이터 구조로 할 수 있지만 효율적인 알고리즘이나 다른 접미사가있는 동일한 단어를 처리 할 수있는 방법이있을 수 있습니다. 그런 목적을위한 알고리즘이 있습니까?

데이터 검색에 익숙하지 않습니다. 일반적으로 서로 다른 문서간에 유사점을 찾는 데 사용되는 용어가 있습니까? 그렇다면 내 연구를 쉽게 할 것입니다.

감사합니다.

2010-03-18 javanes

나는 stemming에 대해 이야기하고 있다고 가정합니다. R language을 사용하려면 tm package으로 작업해야합니다.

하지 않으면, 난 단지 제안 할 수 있습니다이 list of text mining tools

2010-03-18 12:26:31

당신은 않은 워드를 분류, 각 문서에 대한 카운트와 단어 목록을 생성하여 작업을 수행 할 수 있습니다

알파벳 순으로 나열하고 두 목록을 비교합니다. 이것은 O (ng n)입니다.

또 다른 방법은 선택한 데이터베이스가 제공 한대로 full text search을 사용하는 것입니다.

2010-03-18 12:30:03 Will

답변