2012-12-13 2 views
2

거대한 CSV/XML 또는 어딘가에 영어 동사와 변형이 들어있는 어딘가의 파일이 있습니까 (예 : 판매 -> 판매, 판매, 판매, 판매자, 셀리)?영어 동사와 시제, 다양한 형식 등의 목록

이것이 NLP 시스템에 유용 할 것이라고 상상하지만 어디에도 목록이없는 것처럼 보이거나 내 끔찍한 인터넷 검색 기술이 될 수 있습니다. 그렇지 않으면 누구나 단서가 있습니까?

답변

4

Catvar을 고려

범주 적 - 변화 데이터베이스 (또는 Catvar가) (어휘)과 범주 적 어형 단어의 클러스터 데이터베이스입니다 (즉 품사) 변종입니다. 예를 들어 굶주림 (V), 기아 (N), 배고픈 (AJ) 및 배고픔 (N)은 배고픈 상태를 설명하는 기본 개념의 다른 영어 변형입니다. 또 다른 예는 개발 클러스터 (개발 (V), 개발자 (N), 개발 (AJ), 개발 (N), 개발 (AJ), 개발 (N))입니다.

+0

CatVar가 더 이상 사용 가능하지 않은 것 같습니다. 연결이 끊어졌습니다. 내가 어디에서 찾을 수 있는지 아십니까? – Ogaday

+1

공식 버전을 요청하기 위해 논문 저자에게 이메일을 보내보십시오. Github (https://github.com/bolei/trigram-classifier/tree/master/src/main/resources/script/catvar21)에서 비공식 사본을 발견했습니다. –

3

나는 당신이 찾고있는 것이 확실하지 않지만, 나는 영어를위한 어휘 데이터베이스 인 WordNet을 시작하는 것이 좋을 것이라고 생각한다. 난 당신이 언급 된 링크가

워드 넷의 구조는 컴퓨터 언어학 및 자연 언어 처리를위한 유용한 도구로 만드는 것을 말한다 더 http://wordnet.princeton.edu/

에서 읽기.

0

위키 백과의 덤프를 가져 와서이 정보를 추출하는 것을 고려하십시오.
http://en.wiktionary.org/wiki/sell은 많은 단어 형태 (판매, 판매, 판매)를 언급합니다.

표기법 또는 줄기 해석기를 사용하여 단어를 기본 정규형으로 정규화하는 것입니다. 정말 좋은 영어 lemmatizer입니다 morpha로 노는 시도.