HTK (Hidden Markov Model Tool Kit)를 사용하여 Speech to Text 시스템에 대해 Voxforge's tutorial 다음에 MFCC를 생성하는 동안 우리는 전화기에 대한 프로토 타입 모델을 정의해야합니다. 나는이 파일 주위에 머리를 감싸려고 노력하고있다.HTK - HMM 모델 및 입력 WAV 파일의 MFCC는 무엇을 나타 냅니까?
~o <VecSize> 25 <MFCC_0_D_N_Z>
~h "proto"
<BeginHMM>
<NumStates> 5
<State> 2
<Mean> 25
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 25
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<State> 3
<Mean> 25
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 25
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<State> 4
<Mean> 25
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 25
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<TransP> 5
0.0 1.0 0.0 0.0 0.0
0.0 0.6 0.4 0.0 0.0
0.0 0.0 0.6 0.4 0.0
0.0 0.0 0.0 0.7 0.3
0.0 0.0 0.0 0.0 0.0
<EndHMM>
이 경우, 우리는 HMM의 모든 상태를 나타내는 길이 25의 특징 벡터를 사용하고 있습니다. 그러나 나는 왜 모든 국가에 25 가지 "수단"과 "차이"가 있는지 왜 이해하지 못합니다. 그것들은 모든 피처 벡터의 평균과 분산을 나타 냅니까?
왜 우리는 5시 3 개 주를 보유합니까? <State>1
및 <State>5
은 출입구이므로 단순히 Mean
및 Variance
이 필요하지 않으십니까? 또한
, 샘플 wav 파일을 가지고, 내가 아래에 표시되는 MFCC를 인쇄하는 동안 : 모든 "창"를
0: -15.769 -2.168 8.605 4.979 5.283 1.012 9.631 -0.619 3.622 10.977
5.733 3.260 44.447 -0.153 -0.281 -0.810 -1.176 0.363 -0.658 0.676
-1.569 1.363 -1.221 0.815 -0.759 1.427
1: -18.345 -3.220 7.177 0.293 7.232 3.111 17.942 -6.957 8.197 6.579
9.102 -0.569 49.537 0.378 -0.337 -1.277 -1.709 0.623 -0.450 0.162
0.315 2.088 -1.175 0.624 0.762 1.018
2: -15.244 -3.046 5.269 1.441 6.121 -3.326 8.854 -5.297 8.151 7.072
8.122 1.379 49.036 0.543 -0.119 -1.162 -1.263 1.261 -0.388 -0.234
0.816 1.195 -1.237 -0.288 1.600 0.244
3: -14.143 -3.413 3.887 -1.796 7.981 0.930 10.826 3.294 11.797 7.055
7.661 8.011 47.243 0.613 -0.020 -0.568 -0.364 1.034 -0.165 -0.812
2.525 0.351 -1.670 -1.086 1.493 -0.716
4: -15.156 -2.669 4.440 -0.293 11.213 0.162 12.020 -1.667 7.794 4.553
5.013 6.968 46.813 -0.050 -0.092 -0.050 -0.329 0.325 0.585 0.751
1.253 -0.008 -1.852 -0.845 0.058 -0.430
5: -15.323 -3.510 4.750 -0.660 9.856 0.545 12.301 3.855 10.132 -0.511
5.224 4.104 47.068 0.073 0.151 0.163 -0.180 -0.186 -0.242 -0.335
-0.577 -0.479 -0.745 -0.167 -1.565 0.013
을, 왜 우리가 대신 25의 26 coeffieincts을해야합니까? 그들은 모두 무엇을 대표합니까?
14-25
델타 계수26
는 13 수위한 델타 Coeffieienct입니다 있습니다
1-12
는 켑 스트 럼 Coeffiecients 있습니다하지만 각각 어떤 13 수 아무 생각이 : 저는 믿습니다 이 샘플들은 나타냅니다. 시작 부분에 표시된 프로토 타입 파일에 정의 된대로<MFCC_0_D_N_Z>
형식이어야합니다 (은이 아니고 HTK Manual에 잘 설명되어 있음).MFCC_0
: MFCC 계수_D
: 델타 계수_N
:_Z
억제 절대 에너지 :하지만 페이지가 수동의 80에서 가너 수 있습니다 제로 평균 정적 (Coef)를이 있습니다.
모든 설명을 이해할 수 있습니다.
오케이. 26 개의 계수에서 13 번째는'C0'이다. 'C0'은 무엇을 나타내는가? 그리고 왜이 숫자는 MFCC보다 훨씬 높습니까? –
c0는 제로 셉 스트 럼 계수입니다. 그것은 더 높을 것으로 예상되며, 케플 럿은 보통 줄고 있습니다 –