2013-10-01 1 views
0

저는 현재 짧은 스페인어 (MX) 인터뷰 (길이 ~ 2 분)의 오디오 필기자를 개발하고 있습니다. 나는 웹에서 서핑을하고 있지만이 것을 찾을 수 없다. 아마도 너무 쉽다. .jar를 실행하는 동안 나는 es_MX_broadcast ... voxforge 패키지의 /etc/h4.dict에있는 모든 단어를 악센트로 사용하여이 경고를 얻습니다. 전사 및 기타 오류는 전혀 발생하지 않습니다.Sphinx4 및 es_MX_broadcast_cont_2500 사용

...

WARNING dictionary The dictionary is missing a phonetic transcription for the word 'kyrgyzst�'

'WARNING dictionary The dictionary is missing a phonetic transcription for the word 'explotaci�'

WARNING dictionary The dictionary is missing a phonetic transcription for the word 'inclu�'

...

내 단서는 아마 텍스트 인코더 일부 구성 문제가 있지만 어쩌면 내가를 만들 필요가있다 언어 전자 모델. 나는 정말로 그것을 훈련시키고 싶지만, 먼저 그것을 작동시킬 필요가있다. 여기 config.xml 파일의 언어학/사전/language_model/acoustic_model 부분이다

<component name="lexTreeLinguist" 
      type="edu.cmu.sphinx.linguist.lextree.LexTreeLinguist"> 
    <property name="logMath" value="logMath"/> 
    <property name="acousticModel" value="wsj"/> 
    <property name="languageModel" value="trigramModel"/> 
    <property name="dictionary" value="dictionary"/> 
    <property name="addFillerWords" value="false"/> 
    <property name="fillerInsertionProbability" value="1E-10"/> 
    <property name="generateUnitStates" value="false"/> 
    <property name="wantUnigramSmear" value="true"/> 
    <property name="unigramSmearWeight" value="1"/> 
    <property name="wordInsertionProbability" 
      value="${wordInsertionProbability}"/> 
    <property name="silenceInsertionProbability" 
      value="${silenceInsertionProbability}"/> 
    <property name="languageWeight" value="${languageWeight}"/> 
    <property name="unitManager" value="unitManager"/> 
</component>  

<component name="dictionary" 
    type="edu.cmu.sphinx.linguist.dictionary.FastDictionary"> 
    <property name="dictionaryPath" 
       value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/h4.dict"/> 
    <property name="fillerPath" 
     value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/filler.dict"/> 
    <property name="addSilEndingPronunciation" value="false"/> 
    <property name="wordReplacement" value="&lt;sil&gt;"/> 
    <property name="unitManager" value="unitManager"/> 
</component> 

<component name="trigramModel" 
     type="edu.cmu.sphinx.linguist.language.ngram.large.LargeTrigramModel"> 
    <property name="unigramWeight" value=".7"/> 
    <property name="maxDepth" value="3"/> 
    <property name="logMath" value="logMath"/> 
    <property name="dictionary" value="dictionary"/> 
    <property name="location" 
    value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/H4.arpa.Z.DMP"/> 
</component> 

<component name="wsj" 
      type="edu.cmu.sphinx.linguist.acoustic.tiedstate.TiedStateAcousticModel"> 
    <property name="loader" value="wsjLoader"/> 
    <property name="unitManager" value="unitManager"/> 
</component> 

<component name="wsjLoader" type="edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader"> 
    <property name="logMath" value="logMath"/> 
    <property name="unitManager" value="unitManager"/> 
    <property name="location" value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/model_parameters/hub4_spanish_itesm.cd_cont_2500"/> 
</component> 

-------이 NEW INFORMATION (2013년 10월 3일) IS --------- -

감사하지만 문제는 아닙니다. 파일은 이미 UTF8이었고 이미 JAVA TOOLS OPTION을 UTF8로 설정했고 -Dfile.encoding과 함께 .jar도 실행했습니다. 변경된 사항이 있으면 같은 목록을 얻습니다. 파일에 다른 사전 목록이 있는지 여부를 알아 내려고했기 때문에 이상합니다. 그러나 나는 단서입니다. h4.dict가 대문자이고 경고가 소문자로 표시되기 때문에 정말 이상한 점입니다. 또한 경고 목록에 나타나지 않는 악센트가있는 단어가 있습니다. 더 적은 수의 단어로 다른 .dict 파일을 저장하려고 시도했지만 실제로 작동하지 않았습니다. 사실 더 많은 단어가 경고에 나타납니다.

다른 데모에 사용 된 것과 같은 음향 모델에 .jar를 사용하지 않거나 전사 또는 기타 오류가 전혀 없다는 사실과 관련이 있는지 여부는 중요하지 않습니다. .

나는 누군가가 내가 알아내는 것을 도울 수 있기를 정말로 바란다. 그 사이에 나는 더 열심히 노력할 것이다. 당신은 UTF-8

에 파일을 변환 할 필요가

+0

다운로드에있는 파일은 확실히 utf-8이 아니며 iso8859-15에 있습니다. –

+0

그게 전부입니다, 나는 전체 디렉토리를 복제하고 iso889-15에 자바를 인코딩하고 큰 경고 목록없이 실행됩니다. 사전 사전에 ''이라는 단어의 표음 문자가 누락되었습니다 녹음 문제로 인해 알 수없는 음소로 인해이 경고가 표시되는 것으로 보아 사소한 문제입니다. 누구든지 그 오류를 제거하는 최선의 방법을 알고 있다면 매우 감사하겠습니다. 다른 한편으로는 많은 Nicolay에게 감사드립니다. – csampez

답변

0

사전에

많은 감사 당신은 자바 옵션을 사용할 필요가 -Dfile.encoding = UTF-8 VM은 모든 입력 파일이라는 것을 생각해야합니다 자바를 만들기 위해 UTF-8에서

가장 중요한 점으로 es_MX_broadcast_cont는 특정 기능 추출기가 필요합니다. 구성 파일에서 을 S3FeatureExtractor으로 바꿔야합니다. 그렇지 않으면 정확도가 0이됩니다.

+0

나는 게시물을 업데이 트했습니다. 많은 지원에 감사드립니다. – csampez

관련 문제