나는 게임을 만들고 있는데 기본 폼뿐만 아니라 다른 모든 것들도 포함하는 사전 (이 경우 일반 단어 목록)이 필요합니다. 이 경우 언어는 이탈리아어이며, 예를 들어, 동사에는 여러 형태와 명사도 있습니다.위키 피 디아에서 단어 목록 만들기
언어가 매우 불규칙하므로이 모든 것을 포함 할 수있는 거대한 출처에서 나온 단어를 얻고 싶습니다. 처음에는 Wikipedia에 대해 생각했습니다. 나는 모든 기사를 다운로드하고 텍스트를 추출하고 단어를 필터링했습니다.
시간이 많이 걸리고 목록의 완성도면에서 더 나은 해결책이 있는지 알고 싶습니다.
크롤러에 관해 생각해 보면 각 기사를 다운로드 할 필요는 없습니다. [위키 피 디아의 덤프] (http://en.wikipedia.org/wiki/Wikipedia:Database_download#Other_languages)가 있습니다. – Aufziehvogel
@Aufziehvogel : 위대한 제안,이 과정 속도가 빨라집니다! – rubik
이 [HugeWordList] (http://www.wuala.com/Lifehacker%20Fun%20File%20Swap/Documents/Huge%20Word%20List.txt?lang=ko)를 참조하십시오. 낱말은 많은 언어에서 그러나이다. – doru