2011-08-19 3 views
1

NLP 연구를 위해 사용할 수있는 데이터가 없으므로 언더 리소스 언어에 대한 NLP 코퍼스를 구축하려고합니다. 어느 누구도 표준 NLP 코퍼스, 표준 방법 또는 문서 또는 링크로 만들거나 작성하는 방법을 제안 할 수 있습니까? 미리 감사드립니다.NLP 연구를위한 자료 구축을 시작하는 방법

+0

지금까지 무엇을 발견 했습니까? 코퍼스 언어학 분야에는 여러 가지 영역이 있으며 데이터 수집을위한 다양한 방법이 있습니다. 드물거나/덜 "디지털"언어의 경우 현장 작업면에서 노동 집약적이며 프로그래머에게는 일반적으로 필요하지 않습니다. – Iterator

+0

내가 일하려고하는 언어는 디지털 자원이 매우 적습니다. 그래서 NLP 연구 목적을 위해 하나를 만들려고 노력하고 있습니다. 힘든 일이지만 의심 할 여지없이 기술적 인 정보가 필요하거나 다른 대학에서 영어와 같은 언어로 코퍼스를 구축하는 표준 형식이 있습니다. –

+0

당신은 언어학 부서, 특히 언어를 덜 공부할 목적으로 코퍼 수련에 능숙한 사람과 상담해야합니다. 이것은 종종 석사 과정이나 박사 과정 학생들이 긴 과정의 일환으로 수행합니다. 앉고 새롭게하는 것은 그렇게 쉽지 않습니다. 이것은 천개의 문장 (또는 원하는 경우 백만 단어) 당 그러한 데이터를 수집하는 것이 꽤 비싸다는 반성만큼이나 당신을 단념시키려는 것이 아닙니다. 이전에 실행 된 좋은 계획을 가지고 있으면 비용을 낮추고 데이터의 SNR을 향상시킬 수 있습니다. – Iterator

답변

2

나는 펜 트리 뱅크에서 일한 펜실베니아 대학의 Fei Xia와 같은 사람에게 연락을하고 펜 전문가의 모자 또는 전문가의 일부라고 제안합니다.

구문 분석 및 태그 지정을 위해 treebank에 전체 빌드하는 것은 쉬운 작업이 아닙니다. 너 정확히 뭘 하려구? 목표는 무엇입니까? - 분석/태그 지정 중입니까? -semantics? - 정보 추출? - phonetics?

솔직히 의견에 따르면, 이것은 언어 학자 전체 팀의 프로젝트처럼 들립니다.