1
나는 오디오를 텍스트로 변환하기 위해 pocketsphinx를 사용하고 있습니다. 그것은 잘 작동합니다. 이제 각 단어의 타임 스탬프를 얻고 싶습니다. 이것은 내 코드입니다.pocketsphinx python이 잘못된 타임 스탬프를 내림
import speech_recognition as sr
r = sr.Recognizer()
framerate = 100
with sr.AudioFile("1.wav") as source:
audio = r.record(source)
decoder = r.recognize_sphinx(audio, show_all=False)
print ([(seg.word, seg.start_frame/framerate)for seg in decoder.seg()])
설명서에 따르면 기본 프레임 속도는 100입니다. 각 단어의 시작 시간이 있습니다. 그러나 올바르지 않습니다. 차이는 2 초, 때로는 3 초 이상입니다.
알려진 문제이거나 뭔가 누락 되었습니까?