2017-04-26 3 views
1

나는 오디오를 텍스트로 변환하기 위해 pocketsphinx를 사용하고 있습니다. 그것은 잘 작동합니다. 이제 각 단어의 타임 스탬프를 얻고 싶습니다. 이것은 내 코드입니다.pocketsphinx python이 잘못된 타임 스탬프를 내림

import speech_recognition as sr 

r = sr.Recognizer() 
framerate = 100 
with sr.AudioFile("1.wav") as source: 

    audio = r.record(source) 

    decoder = r.recognize_sphinx(audio, show_all=False) 

    print ([(seg.word, seg.start_frame/framerate)for seg in decoder.seg()]) 

설명서에 따르면 기본 프레임 속도는 100입니다. 각 단어의 시작 시간이 있습니다. 그러나 올바르지 않습니다. 차이는 2 초, 때로는 3 초 이상입니다.

알려진 문제이거나 뭔가 누락 되었습니까?

답변

1

내가 요금을 1/100이라고 읽었습니다. 내 프로젝트에서 우연히 1/100 대신에 1/10으로 나눴지만 그 결과는 실제로 내가 한 일에 잘 들어 맞았습니다. 0.1 또는 0.01으로 나누고 해당 내용을 확인하십시오.

그래서 코드는이 변수 시도에 대해 :

framerate = .1 

또는

framerate = .01 
관련 문제