2010-05-18 5 views
1

나는 단어 훈련 단어와 그 분류를 찾아야한다. 같은 간단한 분류. 스포츠 엔터테인먼트와 정치 같은 것들.단어 가방 분류

어디에서 단어와 그 분류를 찾을 수 있습니까? 나는 많은 대학들이 단어 분류로 Bag을 완성했다는 것을 알고있다. 교육 사례의 저장소가 있습니까?

+0

다른 질문에 "사전에서 가장 긴 단어를 얻기 위해 char을 연속적으로 추가"하고 "3 진 검색 트리"라는 구조를 보도록 제안 할 수 있습니다. 이 구조로 철자 검사와 같은 단어 목록에서 검색하는 데 유용한 알고리즘을 많이 구현할 수 있습니다. – Ross

+0

의견을 주셔서 감사합니다. 불행히도 그 실이 닫히고 사람들은 일종의 숙제라고 생각하고있었습니다. – AlgoMan

답변

0

나는 그런 단어 목록을 모르지만 Wikipedia와 위키 분류의 사본을 사용하도록 제안 할 수 있습니다. Wikipedia의 XML 버전을 구문 분석하고 (나는 해냈다) 다른 주제의 단어를 수집 할 수있다.

1

이것은 정확하게 당신이 찾고있는 것이 아니지만, http://labs.google.com/sets이 재미있을 수도 있습니다.
단어 집합을 넣으면 관련 단어 목록이 나옵니다.이 단어는 반복적으로 첫 번째 페이지로 넘어 가서 더 많은 관련 단어를 얻을 수 있습니다 ..

또는 거대한 청크를 다운로드하십시오 (각 페이지의 카테고리 [http://en.wikipedia.org/wiki/Special:Categories]의 카테고리를 이미 알고있는 곳) 한 카테고리의 기사에서 빈도가 높지만 다른 카테고리의 기사에서는 빈도가 낮은 단어를 선택하는 간단한 스크립트를 작성하십시오.

1

주제 당 단어를 찾는 뉴스 그룹 데이터 http://people.csail.mit.edu/jrennie/20Newsgroups. 데이터에 Support Vector Machine을 실행하면 각 클래스에 대한 가중치가 부여됩니다. 상위 20 개 또는 50 개 단어를 사용할 수 있습니다. 데이터 세트에는 종교, 정치, 스포츠 등 20 가지 수업이 있습니다. 도움이되기를 바랍니다.