2013-01-31 2 views
3

아랍어 및 페르시아어로 약 100,000 개의 단락을 포함하는 병렬 코퍼스가 있습니다.시끄러운 텍스트 자료에서 문장 분할 및 표기

내 코퍼스는 해당 단락이 불완전한 번역입니다 (즉, 아랍어 단락의 일부가 페르시아어로 번역되지 않고 구두점이 일치하지 않음).

단락을 문장으로 나누기 위해 구두점을 사용했지만 문장 수가 일치하지 않습니다.

그런 다음 Microsoft Aligner를 사용하여 문장을 정렬했지만 그 결과는 실제로 잘못되었습니다.

코퍼스 문장을 어떻게 분류하고 정렬합니까?

답변

0

질문에 Giza ++ 태그를 사용했습니다. 거기에서 정렬 도구를 사용 했습니까? 꽤 많은 사람들이 사용하는 다른 옵션은 완전한 기능을 갖춘 통계적 MT 패키지 인 Moses입니다.하지만 이것이 정말로 필요한 모든 경우 정렬 모델을 개별적으로 호출 할 수 있다고 생각합니다.

+0

Giza ++는 단어 맞춤에 사용되며 문장 맞춤에는 사용되지 않습니다. Moses 툴킷에는 이미 Giza ++가 포함되어 있습니다. – jvdbogae