번역 시스템에 moses 툴킷을 사용하고 있습니다. 나는 아쌈 어와 영어 병렬 자료를 사용하고 훈련 시켰습니다. 그러나 일부 고유 명사는 번역되지 않습니다. 이것은 내가 아주 작은 코퍼스 (병렬 데이터 세트)를 가지고 있기 때문입니다. 그래서 번역 시스템에서 음역 처리를 사용하고 싶습니다.유니 코드 문자열을 분할해야합니다.
내 번역에이 명령을 사용하고 있습니다 : echo 'কানাদা এখন বিশাল দেশ.'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini
이렇게하면 "কানাদা은 광대 한 나라"라는 결과를 얻었습니다.
"কানাদা"이라는 단어가 제 평행 코퍼스에 없기 때문입니다.
그래서 나는 아삼 어와 영어로 몇 가지 평행 한 단어 목록을 취하고 각 단어를 문자별로 분해합니다. 따라서 두 파일의 각 줄에는 각 문자 (또는 각 음절) 사이에 공백이있는 단일 단어가 있습니다. 나는이 2 개의 파일을 사용하여 시스템을 정상적인 번역 작업으로 훈련시켰다.
그런 다음 나는 'কানাদা এখন বিশাল দেশ.' ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini |
이 ./space.pl
나에게 출력을했다 "ক া ন া দ া 광대 한 나라"나는이 시스템 문자 현명한 훈련 때문에 단어를 중단했다는 ..
다음 명령을 사용하여 훈련 한 음역 시스템을 사용했습니다.
echo 'কানাদা এখন বিশাল দেশ.'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl | ~/mymoses/빈/모세 -f ~/근무처/기차/모델/moses.ini
이 나에게 출력을 준
문자가 유일한 문제 transliterated..but있다 "캐나다는 광대 한 나라입니다" 단어 사이에 공백이 있습니다. 그래서 저는 단어에 참여할 펄 파일을 사용하고 싶습니다. 마지막 명령은
입니다. echo 'কানাদা এখন বিশাল দেশ.'| ~/mymoses/bin/moses -f ~/work/mert-work/moses.ini | ./space.pl | ~/mymoses/bin/moses -f ~/work1/train/model/moses.ini | ./join.pl
"join.pl"파일을 도와주세요.
아쌈 어를 나누고 싶다고 말하면 도움이 될 수 있습니다. 나는 당신이 [X/Y 문제] (http://meta.stackexchange.com/questions/66377/what-is-the-xy-problem) 여기있을 수 있습니다 용의자. 아래 주석 중 하나에서 문자를 음역하고 싶다고 말하면 : 그렇다면, (별개의 질문으로) 문자를 쓰는 것이 더 나을 것입니다. –