IMB의 텍스트 음성 서비스는이를 수행합니다. 나머지 서비스를 아주 간단하게 사용한다면 url 매개 변수에서 확인 된 다른 연설자를 추가하기 만하면됩니다. 여기에 대한 문서가이 같은 종류의 작동
(https://console.bluemix.net/docs/services/speech-to-text/output.html#speaker_labels) :
{
"results": [
{
"alternatives": [
{
"timestamps": [
[
"hello",
0.68,
1.19
],
[
"yeah",
1.47,
1.93
],
[
"yeah",
1.96,
2.12
],
[
"how's",
2.12,
2.59
],
[
"Billy",
2.59,
3.17
],
. . .
]
"confidence": 0.821,
"transcript": "hello yeah yeah how's Billy "
}
],
"final": true
}
],
"result_index": 0,
"speaker_labels": [
{
"from": 0.68,
"to": 1.19,
"speaker": 2,
"confidence": 0.418,
"final": false
},
{
"from": 1.47,
"to": 1.93,
"speaker": 1,
"confidence": 0.521,
"final": false
},
{
"from": 1.96,
"to": 2.12,
"speaker": 2,
"confidence": 0.407,
"final": false
},
{
"from": 2.12,
"to": 2.59,
"speaker": 2,
"confidence": 0.407,
"final": false
},
{
"from": 2.59,
"to": 3.17,
"speaker": 2,
"confidence": 0.407,
"final": false
},
. . .
]
}
는 그들도 있습니다
다음
curl -X POST -u {username}:{password}
--header "Content-Type: audio/flac"
--data-binary @{path}audio-multi.flac
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?model=en-US_NarrowbandModel&speaker_labels=true"
가이 같은 결과와 스피커 라벨과 JSON을 반환합니다 웹 소켓 옵션 및 SDK를 액세스 할 수있는 다양한 플랫폼에 사용할 수 있습니다.
행운
덕분 링크, 나는 그 리드와 함께 뭔가를 알아낼 수 있습니다. 나는 허위 사실을 "당신이 부정적인 것을 증명할 수는 없다"며 여기에 적용하여 누군가가 "실제적인"해결책을 제시하는지 2 일간 기다릴 것입니다. 2 일 후에 "실제"해결책이 게시되지 않으면이를 승인 된 답변으로 표시합니다. –
거짓말했습니다. 나는 5 일 늦었다. 병리학 낙천주의 ... 프로그래머의 우울함 : –
@Paul 고맙습니다. :) 다른 무엇보다 우연히 발견되면 돌아가서 내 대답을 업데이트 할 것입니다. – brandall