2011-04-24 4 views
-1

큰 사전 파일 인 dic.txt (실제로는 SOWPODS)에 한 줄에 영어 한 단어가 있습니다. 이 파일을 3 개의 다른 파일 easy_dic.txt (우리가 사용하는 가장 일반적인 단어 - 16 세의 단어), medium_dic.txt (일반적인 사용법은 아니지만 많은 사람들에게 알려진 지식 - 지식 hard_dic.txt (전문적인 Scrabble 플레이어 만 알 수있는 아주 난해한 단어). 가장 쉬운 방법은 무엇입니까 (인터넷의 모든 리소스를 사용할 수 있습니다)?사전에서 단어를 자동으로 분류하는 방법은 무엇입니까?

+2

다소 제한이 없습니다. 사전 파일만으로는 불가능합니다. – Oded

+0

음, 분명히 인터넷에서 사용 가능한 모든 리소스를 사용할 수 있습니다. 사용할 수있는 API가 있는지 궁금합니다. 질문은 자유롭지 않다고 생각합니다. 할 일이 무엇인지 분명합니다. – pathikrit

+0

@Oded 당신이 옳을 수도 있지만 문제는 매우 흥미롭고 많은 유용한 결과를 가져옵니다. 맞춤법이 틀린 단어에 대한 제안을 생성하는 모듈을 만들려고 할 때도 똑같은 문제가 발생했습니다. 가장 일반적인 단어 (특정 편집 거리 간격 내에서)를 제안함으로써 소프트웨어의 추측 능력이 크게 향상되었습니다. –

답변

4

Google은 올바른 도구가 있습니다 :) 그리고 DB를 공유합니다.

Ngram viewer 체크 아웃과 문학, 잡지에서 단어의 출현 빈도를 비교하는 도구 등

당신은 DB를 다운로드 here

HTH에서 사전을 훈련 할 수있다!

BTW이 도구는 단어의 출생 및 실종 날짜를 사용하고 발견하는 것은 매우 재미 있습니다.

+0

이 답변에 추가하려면 해당 페이지에서 unigram 목록을보고 싶을 것입니다. 컷오프의 경우, 경계선을 쉽게 잡을 수 있고, 경계선이 중간이고, 경계선이 모호하며, 그 단어의 수를 발견하고, 그 수로 임계 값을 설정하여 목록을 작성할 수 있습니다 –

0
  • 컴퓨터에서 읽을 수있는 형태로 제공되는 일부 서적 (가능한 세 가지 카테고리)을 가져옵니다.
  • 해당 서적의 모든 단어에 대한 막대 그래프를 작성하십시오.
  • 각 카테고리의 모든 책에 대한 히스토그램을 병합합니다.
  • 사전을 처리 할 때 어떤 카테고리의 히스토그램에서 단어의 수가 가장 많은지 확인하고이 카테고리에 단어를 넣으십시오.

대신 히스토그램을 처리하고 가장 많은 히트 곡을 제외한 모든 히스토그램에서 단어를 제거 할 수도 있습니다. 그런 다음 외부 사전 파일을 사용하지 않고 이미 단어 목록을 가지고 있습니다.

0

다운로드 위키 피 디아 덤프를 다운로드하면 일부 Lingpipe 도구 (최적의 데이터 구조)로 단어 빈도를 배울 수 있습니다. 사전의 빈도 분포에서 단어를 확인한 다음 3 개의 그룹으로 나눕니다.

관련 문제