큰 사전 파일 인 dic.txt (실제로는 SOWPODS)에 한 줄에 영어 한 단어가 있습니다. 이 파일을 3 개의 다른 파일 easy_dic.txt (우리가 사용하는 가장 일반적인 단어 - 16 세의 단어), medium_dic.txt (일반적인 사용법은 아니지만 많은 사람들에게 알려진 지식 - 지식 hard_dic.txt (전문적인 Scrabble 플레이어 만 알 수있는 아주 난해한 단어). 가장 쉬운 방법은 무엇입니까 (인터넷의 모든 리소스를 사용할 수 있습니다)?사전에서 단어를 자동으로 분류하는 방법은 무엇입니까?
-1
A
답변
4
Google은 올바른 도구가 있습니다 :) 그리고 DB를 공유합니다.
Ngram viewer 체크 아웃과 문학, 잡지에서 단어의 출현 빈도를 비교하는 도구 등
당신은 DB를 다운로드 here
HTH에서 사전을 훈련 할 수있다!
BTW이 도구는 단어의 출생 및 실종 날짜를 사용하고 발견하는 것은 매우 재미 있습니다.
+0
이 답변에 추가하려면 해당 페이지에서 unigram 목록을보고 싶을 것입니다. 컷오프의 경우, 경계선을 쉽게 잡을 수 있고, 경계선이 중간이고, 경계선이 모호하며, 그 단어의 수를 발견하고, 그 수로 임계 값을 설정하여 목록을 작성할 수 있습니다 –
0
- 컴퓨터에서 읽을 수있는 형태로 제공되는 일부 서적 (가능한 세 가지 카테고리)을 가져옵니다.
- 해당 서적의 모든 단어에 대한 막대 그래프를 작성하십시오.
- 각 카테고리의 모든 책에 대한 히스토그램을 병합합니다.
- 사전을 처리 할 때 어떤 카테고리의 히스토그램에서 단어의 수가 가장 많은지 확인하고이 카테고리에 단어를 넣으십시오.
대신 히스토그램을 처리하고 가장 많은 히트 곡을 제외한 모든 히스토그램에서 단어를 제거 할 수도 있습니다. 그런 다음 외부 사전 파일을 사용하지 않고 이미 단어 목록을 가지고 있습니다.
0
다운로드 위키 피 디아 덤프를 다운로드하면 일부 Lingpipe 도구 (최적의 데이터 구조)로 단어 빈도를 배울 수 있습니다. 사전의 빈도 분포에서 단어를 확인한 다음 3 개의 그룹으로 나눕니다.
관련 문제
- 1. AppleScript로 Mac OS X 사전에서 단어를 찾는 방법은 무엇입니까?
- 2. 큰 '매크로'클래스를 분류하는 방법은 무엇입니까?
- 3. 텍스트 콘텐츠를 기반으로 분류하는 방법은 무엇입니까?
- 4. 사이트 목록을 분류하는 가장 좋은 방법은 무엇입니까?
- 5. 바깥쪽으로 향한 Bugzilla를 분류하는 방법은 무엇입니까?
- 6. 기존 애플리케이션을 분류하는 가장 좋은 방법은 무엇입니까?
- 7. 사전에서 어떻게 상속합니까?
- 8. 리소스 사전에서 색을 올바르게 정의하는 방법은 무엇입니까?
- 9. 리소스 사전에서 코드의 스타일을 얻는 방법은 무엇입니까?
- 10. 사전에서 이중 값을 얻는 방법은 무엇입니까?
- 11. 일반 사전에서 일반 사전을 사용하는 방법은 무엇입니까?
- 12. 사전에서 '첫 번째'값을 찾는 방법은 무엇입니까?
- 13. 사전에서 모든 키를 검색하는 방법은 무엇입니까?
- 14. 전체 단어를 자르는 방법은 무엇입니까?
- 15. div에 단어를 포함하는 방법은 무엇입니까?
- 16. 단어를 카테고리로 만드는 방법. (NLP)
- 17. 파이썬 사전에서 반복 처리하는 방법은?
- 18. emacs & icicles : 사전에서 자동 완성 하시겠습니까?
- 19. 논문에 대한 SQL Server 데이터 액세스를 분류하는 방법은 무엇입니까?
- 20. 일본어 문자를 한자 또는 가타카나 또는 히라가나로 분류하는 방법은 무엇입니까?
- 21. R에서 카테고리를 축소하거나 변수를 다시 분류하는 방법은 무엇입니까?
- 22. 고용주를 조건에 따라 세 개의 열로 분류하는 방법은 무엇입니까?
- 23. 사용자 생성 콘텐츠를 자동으로 발췌하는 방법은 무엇입니까?
- 24. MYSQL에서 정지 단어를 재설정하는 방법은 무엇입니까?
- 25. 문자열에서 대문자로 단어를 찾고 바꾸는 방법은 무엇입니까?
- 26. Java에서 영어 단어를 결합하는 방법은 무엇입니까?
- 27. PHP에서 일반적인 접두어로 단어를 일치시키는 방법은 무엇입니까?
- 28. 유닉스에서 여러 줄로 단어를 추출하는 방법은 무엇입니까?
- 29. ANTLR을 통해 영어 단어를 인식하는 방법은 무엇입니까?
- 30. Android Webview - 클릭하는 단어를 캡처하는 방법은 무엇입니까?
다소 제한이 없습니다. 사전 파일만으로는 불가능합니다. – Oded
음, 분명히 인터넷에서 사용 가능한 모든 리소스를 사용할 수 있습니다. 사용할 수있는 API가 있는지 궁금합니다. 질문은 자유롭지 않다고 생각합니다. 할 일이 무엇인지 분명합니다. – pathikrit
@Oded 당신이 옳을 수도 있지만 문제는 매우 흥미롭고 많은 유용한 결과를 가져옵니다. 맞춤법이 틀린 단어에 대한 제안을 생성하는 모듈을 만들려고 할 때도 똑같은 문제가 발생했습니다. 가장 일반적인 단어 (특정 편집 거리 간격 내에서)를 제안함으로써 소프트웨어의 추측 능력이 크게 향상되었습니다. –