2013-07-01 2 views
2

지금은 두 개의 다른 파일에서 단어를 비교하려고합니다. 하나는 영어이고 하나는 chinese입니다. 영어 단어 중 하나라도 중국어 단어와 관련이 있는지 확인해야합니다. 그렇다면 영어 단어가 중국어 단어와 동등하거나 다른 단어의 상위 문자인지 확인해야합니다. 나는 영어에 대한 synsets를 사용할 수 있지만 중국어 단어에 대해 무엇을 할 수 있습니까?NLTK synset with other languages ​​

답변

1

대만의 대학교에서 제공되는 중국어 (cmn) WordNet이있는 것 같습니다 : http://casta-net.jp/~kuribayashi/multi/. 이 WordNet이 영어 WordNet과 동일한 형식이면 NLTK에서 WordNetCorpusReader (http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader)를 사용하여 표준 데이터를 가져올 수 있습니다. 두 데이터 세트 간의 정렬이나 변환을 어떻게하는지 모르겠지만 영어를 중국어로 매핑 할 수 있다고 가정하면 두 영어 단어 간의 관계가 두 중국어 단어 간의 관계와 어떻게 비교되는지 알 수 있습니다. 데이터에서 단순화 된 스크립트를 사용하는 경우이 cmn WordNet을 사용하기 전에 기존 스크립트로 변환해야 할 수도 있습니다.

+0

;'Open Multilingual WordNet'은 비 영어 워드 넷을위한 훌륭한 자료이며, 누구든지 NLTK API를 작성하게되어 기쁘다면 Francis Bond @ http://www3.ntu.edu.sg/home에 문의하십시오./fcbond/or Steven Bird http://ww2.cs.mu.oz.au/~sb/ 또는 모두 =) – alvas

+0

WordNet OP가 아닌 전체 목록에 링크 된 이유가 여기에 있습니다. hypo와 hyper-nym 식별을 위해 생각할지라도 계층 적 구조가 많은 경우에 충분히 가깝다고 생각할지라도 다른 언어에 대해 개발 된 온톨로지가 일반적으로 언어 간 동일하지는 않습니다. – dmh

+0

언어 독립적 인 도메인 특정 온톨로지를 가질 수는 있지만 hypo/hypnym hierachies는 크로스 랭크에 가까운 것이라고는 생각하지 않습니다. http://goo.gl/LkN3h를 참조하십시오. – alvas

관련 문제