2013-08-14 2 views
0

이전에 POS 주석이없는 언어의 코퍼스가 있습니다. 즉, 기존 태그 세트가 없습니다. 수동으로 메모장과 같은 워드 프로세서로 태그를 지정하는 것 외에도, 자동 코덱과 같은 새로운 태그가 지정되지 않은 세트에 태그를 지정하는 자동 방법이 있습니까? 감사합니다. .새 태그 세트를 작성하는 방법

+0

코퍼스의 언어는 무엇입니까? – mbatchkarov

+1

또한 "비표준 방식"으로 "태그 세트"라는 용어를 사용하고 있습니다. 태그 집합은 언어 **에있는 모든 부분의 음성입니다. 예를 들어 영어는 종종 Penn 태그 세트를 사용하여 분석됩니다. 즉, 코퍼스의 각 단어에 Penn 태그 세트의 태그 중 하나가 지정됩니다. 언어 학자들은 언어가 갖는 품사에 대해 종종 동의하지 않기 때문에 언어마다 여러 개의 태그 세트를 사용할 수 있습니다. – mbatchkarov

+0

정정 보내 주셔서 감사합니다. . .tag 세트. – Iykeln

답변

0

태그 집합의 세부 묘사 정도에 따라 다릅니다. 10-12 기본 POS (명사, 형용사, ..., 외국어, 구두점) 또는보다 상세한 (구별되는 동사 형식, 대명사 유형, 성별, 수, 시제, ...).

전자는 거의 보편적입니다 (the categories of the Multext-East tagset 또는 Google의 보편적 인 태그 세트 참조).

후자는 훨씬 더 복잡합니다. 약 paper입니다. 즉, 우리는 tagsets에 대한 템플릿을 가지고 있으며, 특정 언어에 맞게 카테고리와 값을 추가/삭제합니다. 주석에 관한

는 : 다시, 그것은 의존 - 방금 수동으로 각 단어에 태그를 지정할 수있는 작은 태그 세트가있는 경우, 메모장이나 간단한 GUI (우리가 this one를 사용하지만, 아마도 더 나은 사람이있다)에서 말한다. 수천 또는 수천 개의 태그가있는 태그 세트가 있다면 아마 더 나은 지원을 원할 것입니다. 가장 좋은 방법은 분석기가 제안하는 옵션 중에서 선택할 수있는 (아마도 과장 된) 형태소 분석기와 GUI를 사용하는 것입니다.

+0

Jirka에게 감사드립니다. 당신이 저를 도울 경험이있는 것처럼 보이기 때문에 더 많은 토론을 위해 연락을 드릴 수 있습니까? 당신이 추천 한 자원들이 정말로 내 마음을 열었습니다. – Iykeln

+0

예, 내 웹 페이지 (purl.org/jh)에있는 이메일을 사용하여 1 주일 이내에 회신을 보내지 않으면 월요일까지 기다리지 않을 것입니다. – Jirka

0

Brat에는 수동 주석을위한 매우 훌륭한 GUI가 있습니다.

관련 문제