2013-01-18 1 views
0

나는 게임을 만들고 있는데 기본 폼뿐만 아니라 다른 모든 것들도 포함하는 사전 (이 경우 일반 단어 목록)이 필요합니다. 이 경우 언어는 이탈리아어이며, 예를 들어, 동사에는 여러 형태와 명사도 있습니다.위키 피 디아에서 단어 목록 만들기

언어가 매우 불규칙하므로이 모든 것을 포함 할 수있는 거대한 출처에서 나온 단어를 얻고 싶습니다. 처음에는 Wikipedia에 대해 생각했습니다. 나는 모든 기사를 다운로드하고 텍스트를 추출하고 단어를 필터링했습니다.

시간이 많이 걸리고 목록의 완성도면에서 더 나은 해결책이 있는지 알고 싶습니다.

+3

크롤러에 관해 생각해 보면 각 기사를 다운로드 할 필요는 없습니다. [위키 피 디아의 덤프] (http://en.wikipedia.org/wiki/Wikipedia:Database_download#Other_languages)가 있습니다. – Aufziehvogel

+0

@Aufziehvogel : 위대한 제안,이 과정 속도가 빨라집니다! – rubik

+0

이 [HugeWordList] (http://www.wuala.com/Lifehacker%20Fun%20File%20Swap/Documents/Huge%20Word%20List.txt?lang=ko)를 참조하십시오. 낱말은 많은 언어에서 그러나이다. – doru

답변

1

Linux 시스템을 사용하는 경우/usr/share/dict/words를 볼 수 있습니다.

+0

예, Linux에 있습니다. 불행히도 해당 파일에는 기본 단어 만 포함되어 있으며 다른 것들 (문법 규칙 및 모든 예외 ...)부터 시작하여 다른 단어를 생성하는 것은 매우 어렵습니다. – rubik

+1

같은 사고 방식으로, aspell 사전을 사용할 수도 있습니다 :'aspell -d en dump master | aspell -l en expand> english, 알고있는 모든 단어 형식으로 확장해야합니다. – Kevin

+0

@rubik 확실한가요? 영어 사전에는 많은 단어가 있습니다. 예 : grep 'ing $'/ usr/share/dict/words는 많은 결과를 가져옵니다. – Steve

관련 문제