WordNet은 원하는 것입니다. 100,000 개가 넘는 항목이 포함되어 있으며 무료입니다.
그러나 XML로 저장되지 않습니다. 데이터에 액세스하려면 선택한 언어로 기존 WordNet APIs 중 하나를 사용하고 싶을 것입니다.
API를 사용하는 것은 일반적으로 매우 간단하므로 "복잡한 API를 배우는"것에 대해 많이 걱정할 필요가 없다고 생각합니다. 예를 들어, Natural Language Toolkit (NLTK)을 기반으로 파이썬에 대한 WordNet How to에서 대출 :
>>> from nltk.corpus import wordnet
>>>
>>> # Get All Synsets for 'dog'
>>> # This is essentially all senses of the word in the db
>>> wordnet.synsets('dog')
[Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'),
Synset('cad.n.01'), Synset('frank.n.02'),Synset('pawl.n.01'),
Synset('andiron.n.01'), Synset('chase.v.01')]
>>> # Get the definition and usage for the first synset
>>> wn.synset('dog.n.01').definition
'a member of the genus Canis (probably descended from the common
wolf) that has been domesticated by man since prehistoric times;
occurs in many breeds'
>>> wn.synset('dog.n.01').examples
['the dog barked all night']
>>> # Get antonyms for 'good'
>>> wordnet.synset('good.a.01').lemmas[0].antonyms()
[Lemma('bad.a.01.bad')]
>>> # Get synonyms for the first noun sense of 'dog'
>>> wordnet.synset('dog.n.01').lemmas
[Lemma('dog.n.01.dog'), Lemma('dog.n.01.domestic_dog'),
Lemma('dog.n.01.Canis_familiaris')]
>>> # Get synonyms for all senses of 'dog'
>>> for synset in wordnet.synsets('dog'): print synset.lemmas
[Lemma('dog.n.01.dog'), Lemma('dog.n.01.domestic_dog'),
Lemma('dog.n.01.Canis_familiaris')]
...
[Lemma('frank.n.02.frank'), Lemma('frank.n.02.frankfurter'),
...
를 워드 넷의 미국 영어 편견이 있지만, 그것은 영국의 철자 및 사용을 지원합니다. 예를 들어, '색상'을 검색 할 수 있으며 '리프트'의 synset 세트 중 하나는 'elevator.n.01'입니다.
참고 XML
XML이 필수적으로 표현 된 데이터를 갖는 것은, 당신은 쉽게, 예를 워드 넷 데이터베이스 에 액세스하고 XML로 변환하는 API 중 하나를 사용할 수있는 경우에 Thinking XML: Querying WordNet as XML을 참조하십시오.
http://superuser.com/questions/120699/word-list-sources – warren
[위키 낱말 사전를 XML로 다운로드 할 수 있습니다.] (http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-pages- articles.xml.bz2)하지만 구문 분석하기가 어려울 수있는 서식이 포함되어 있습니다. 동의어 및 대체 철자가 포함됩니다. – hippietrail
github https://github.com/airshipcloud/dictionary-seed/tree/master/wordnet/Thesaurus에서 csv 파일 목록을 찾았습니다 – dikirill