1
NLP 연구를 위해 사용할 수있는 데이터가 없으므로 언더 리소스 언어에 대한 NLP 코퍼스를 구축하려고합니다. 어느 누구도 표준 NLP 코퍼스, 표준 방법 또는 문서 또는 링크로 만들거나 작성하는 방법을 제안 할 수 있습니까? 미리 감사드립니다.NLP 연구를위한 자료 구축을 시작하는 방법
NLP 연구를 위해 사용할 수있는 데이터가 없으므로 언더 리소스 언어에 대한 NLP 코퍼스를 구축하려고합니다. 어느 누구도 표준 NLP 코퍼스, 표준 방법 또는 문서 또는 링크로 만들거나 작성하는 방법을 제안 할 수 있습니까? 미리 감사드립니다.NLP 연구를위한 자료 구축을 시작하는 방법
나는 펜 트리 뱅크에서 일한 펜실베니아 대학의 Fei Xia와 같은 사람에게 연락을하고 펜 전문가의 모자 또는 전문가의 일부라고 제안합니다.
구문 분석 및 태그 지정을 위해 treebank에 전체 빌드하는 것은 쉬운 작업이 아닙니다. 너 정확히 뭘 하려구? 목표는 무엇입니까? - 분석/태그 지정 중입니까? -semantics? - 정보 추출? - phonetics?
솔직히 의견에 따르면, 이것은 언어 학자 전체 팀의 프로젝트처럼 들립니다.
지금까지 무엇을 발견 했습니까? 코퍼스 언어학 분야에는 여러 가지 영역이 있으며 데이터 수집을위한 다양한 방법이 있습니다. 드물거나/덜 "디지털"언어의 경우 현장 작업면에서 노동 집약적이며 프로그래머에게는 일반적으로 필요하지 않습니다. – Iterator
내가 일하려고하는 언어는 디지털 자원이 매우 적습니다. 그래서 NLP 연구 목적을 위해 하나를 만들려고 노력하고 있습니다. 힘든 일이지만 의심 할 여지없이 기술적 인 정보가 필요하거나 다른 대학에서 영어와 같은 언어로 코퍼스를 구축하는 표준 형식이 있습니다. –
당신은 언어학 부서, 특히 언어를 덜 공부할 목적으로 코퍼 수련에 능숙한 사람과 상담해야합니다. 이것은 종종 석사 과정이나 박사 과정 학생들이 긴 과정의 일환으로 수행합니다. 앉고 새롭게하는 것은 그렇게 쉽지 않습니다. 이것은 천개의 문장 (또는 원하는 경우 백만 단어) 당 그러한 데이터를 수집하는 것이 꽤 비싸다는 반성만큼이나 당신을 단념시키려는 것이 아닙니다. 이전에 실행 된 좋은 계획을 가지고 있으면 비용을 낮추고 데이터의 SNR을 향상시킬 수 있습니다. – Iterator