1

HTK (Hidden Markov Model Tool Kit)를 사용하여 Speech to Text 시스템에 대해 Voxforge's tutorial 다음에 MFCC를 생성하는 동안 우리는 전화기에 대한 프로토 타입 모델을 정의해야합니다. 나는이 파일 주위에 머리를 감싸려고 노력하고있다.HTK - HMM 모델 및 입력 WAV 파일의 MFCC는 무엇을 나타 냅니까?

~o <VecSize> 25 <MFCC_0_D_N_Z> 
~h "proto" 
<BeginHMM> 
    <NumStates> 5 
    <State> 2 
    <Mean> 25 
     0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
    <Variance> 25 
     1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 
<State> 3 
    <Mean> 25 
     0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
    <Variance> 25 
     1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 
<State> 4 
    <Mean> 25 
     0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 
    <Variance> 25 
     1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 
<TransP> 5 
    0.0 1.0 0.0 0.0 0.0 
    0.0 0.6 0.4 0.0 0.0 
    0.0 0.0 0.6 0.4 0.0 
    0.0 0.0 0.0 0.7 0.3 
    0.0 0.0 0.0 0.0 0.0 
<EndHMM> 

이 경우, 우리는 HMM의 모든 상태를 나타내는 길이 25의 특징 벡터를 사용하고 있습니다. 그러나 나는 왜 모든 국가에 25 가지 "수단"과 "차이"가 있는지 왜 이해하지 못합니다. 그것들은 모든 피처 벡터의 평균과 분산을 나타 냅니까?

왜 우리는 5시 3 개 주를 보유합니까? <State>1<State>5은 출입구이므로 단순히 MeanVariance이 필요하지 않으십니까? 또한

, 샘플 wav 파일을 가지고, 내가 아래에 표시되는 MFCC를 인쇄하는 동안 : 모든 "창"를

0:  -15.769 -2.168 8.605 4.979 5.283 1.012 9.631 -0.619 3.622 10.977 
      5.733 3.260 44.447 -0.153 -0.281 -0.810 -1.176 0.363 -0.658 0.676 
      -1.569 1.363 -1.221 0.815 -0.759 1.427 
    1:  -18.345 -3.220 7.177 0.293 7.232 3.111 17.942 -6.957 8.197 6.579 
      9.102 -0.569 49.537 0.378 -0.337 -1.277 -1.709 0.623 -0.450 0.162 
      0.315 2.088 -1.175 0.624 0.762 1.018 
    2:  -15.244 -3.046 5.269 1.441 6.121 -3.326 8.854 -5.297 8.151 7.072 
      8.122 1.379 49.036 0.543 -0.119 -1.162 -1.263 1.261 -0.388 -0.234 
      0.816 1.195 -1.237 -0.288 1.600 0.244 
    3:  -14.143 -3.413 3.887 -1.796 7.981 0.930 10.826 3.294 11.797 7.055 
      7.661 8.011 47.243 0.613 -0.020 -0.568 -0.364 1.034 -0.165 -0.812 
      2.525 0.351 -1.670 -1.086 1.493 -0.716 
    4:  -15.156 -2.669 4.440 -0.293 11.213 0.162 12.020 -1.667 7.794 4.553 
      5.013 6.968 46.813 -0.050 -0.092 -0.050 -0.329 0.325 0.585 0.751 
      1.253 -0.008 -1.852 -0.845 0.058 -0.430 
    5:  -15.323 -3.510 4.750 -0.660 9.856 0.545 12.301 3.855 10.132 -0.511 
      5.224 4.104 47.068 0.073 0.151 0.163 -0.180 -0.186 -0.242 -0.335 
      -0.577 -0.479 -0.745 -0.167 -1.565 0.013 

을, 왜 우리가 대신 25의 26 coeffieincts을해야합니까? 그들은 모두 무엇을 대표합니까?

  • 14-25 델타 계수
  • 26는 13 수
  • 위한 델타 Coeffieienct입니다 있습니다

    • 1-12는 켑 스트 럼 Coeffiecients 있습니다하지만 각각 어떤 13 수 아무 생각이 : 저는 믿습니다 이 샘플들은 나타냅니다. 시작 부분에 표시된 프로토 타입 파일에 정의 된대로 <MFCC_0_D_N_Z> 형식이어야합니다 (이 아니고 HTK Manual에 잘 설명되어 있음).

      • MFCC_0 : MFCC 계수
      • _D : 델타 계수
      • _N :
      • _Z 억제 절대 에너지 :하지만 페이지가 수동의 80에서 가너 수 있습니다 제로 평균 정적 (Coef)를이 있습니다.

      모든 설명을 이해할 수 있습니다.

    답변

    2

    왜 우리는 5시 3 개 주를 보유합니까? 1과 5는 진입 점과 이탈 점이므로 Mean과 Variance가 필요하지 않습니까?

    예, 경계 상태는 거짓입니다.

    모든 "창"에 대해 왜 25 대신 26 개의 계수가 있습니까? 그들은 모두 무엇을 대표합니까?

    MFCC 유형이 Tutorial step 5 같이 MFCC_0_D, 그래서 사람들은 13 CEPS 13 델타입니다 : 저는 믿습니다.

    ---------------------------------- Source: ar-03.mfc ----------------------------------- 
        Sample Bytes: 52  Sample Kind: MFCC_D_C_K_0 
        Num Comps:  26  Sample Period: 10000.0 us 
        Num Samples: 648  File Format: HTK 
    -------------------------------- Observation Structure --------------------------------- 
    x:  MFCC-1 MFCC-2 MFCC-3 MFCC-4 MFCC-5 MFCC-6 MFCC-7 MFCC-8 MFCC-9 MFCC-10 
         MFCC-11 MFCC-12  C0 Del-1 Del-2 Del-3 Del-4 Del-5 Del-6 Del-7 
         Del-8 Del-9 Del-10 Del-11 Del-12 DelC0 
    
    MFC 파일에 저장 기능의 유형은 HMM 훈련에 사용하는 기능의 유형과 다를 수 있습니다

    의 HMM 기능이에 따라 즉석에서 MFC에서 계산됩니다 : 당신은 또한 정확한 레이아웃을 인쇄 할 HList -o -h을 사용할 수 있습니다 원형 사양이므로 디스크에 26 MFCC_0_D이 있고 계산할 때 에너지를 떨어 뜨리고 평균을 정규화하여 계수를 MFCC_0_D_N_Z 개로 변환합니다.

    나는 모든 국가에 대해 25 가지 "수단"과 "차이"가있는 이유를 잘 모릅니다. 그것들은 모든 피처 벡터의 평균과 분산을 나타 냅니까?

    평균 및 평균은 모든 HMM 상태에 대한 HMM 방출 분포의 가우시안 매개 변수이며, 이는 특성 벡터의 평균이 아닙니다. HMM이 무엇인지 확인하십시오.

    +0

    오케이. 26 개의 계수에서 13 번째는'C0'이다. 'C0'은 무엇을 나타내는가? 그리고 왜이 숫자는 MFCC보다 훨씬 높습니까? –

    +0

    c0는 제로 셉 스트 럼 계수입니다. 그것은 더 높을 것으로 예상되며, 케플 럿은 보통 줄고 있습니다 –

    관련 문제