2009-05-22 2 views
0

우리는 점점 더 많은 음성 인식이 구현되고 있으며 음성 인식이 좋은 라이브러리를 요청하고 있습니다. 키보드 또는 키패드와 비교하여 그 뒤에있는 근거는 무엇입니까 (유용성의 관점에서)? 이 개발에 투자해야하는 이유는 무엇입니까?사용 편의성 : 음성 인식 대 키패드

예를 들어 콜센터를 이용하십시오. 몇 년 전 거의 모든 콜센터에서 IVR을 사용하여 메뉴에 대한 키를 입력했습니다. 이제는 음성 키워드 및/또는 누르는 키패드에 대해 "인보이스를 말하거나 1을 눌러 인보이스를 확인하십시오"라는 메시지를 표시하는 메뉴가 점점 더 많이 보입니다. 아니면 우리 회사의 전화 번호부에서 똑같은 것을 본다 : "당신이 도달하려고하는 사람의 이름을 말하십시오"... "Franck Loyd"... "당신은 Jack Freud라고 했습니까? 이 사람에게 다가 가기 위해 또는 다시 시도하려고 '라고 말하십시오.

나는 당신이 당신의 차를 들지 않고 차에있을 때 더할 나위없이 좋지만, 추가 대기 시간의 가치가있는 것은 아닌가? 모든 선택 사항에 대해 더 긴 상호 작용, 무엇인가 말했는지 등을 분석하려고 할 때 더 긴 프롬프트 시간? 또한 신뢰도가 그 어느 때보 다 좋았지 만 누군가가 시스템에 연결하기로 결정한 장난감처럼 느껴지면서 미래 지향적 인 느낌을 줄 수 있습니다.

음성 인식을 사용하거나 (선택하지 않은) IVR 또는 소프트웨어를 설계 한 경험이 있습니까?

감사합니다.

답변

1

키보드 또는 키패드 대 뒤에 ( 유용성의 기간에) 근거는 무엇입니까?

사용성은 매우 광범위한 용어입니다. 터치 패드로 주소를 입력하려고하면 매우 유용하지 않다고 생각됩니다. 70-80 %의 전반적인 성공률을 가진 음성 엔진을 사용하는 것은 그다지 쓸모가 없다고 주장하는 사람들도 있습니다. 다른 게시물에 표시된 것처럼 핸즈프리 입력은 휴대 전화 사용자가 손쉽게 사용할 수 있습니다. 그러나 단어 입력 대 숫자 입력을 사용하면 주제가 발신자에게 다소 외국 적이라면 실제로 터치 톤 전화보다 직관적이지 않을 수 있습니다. 호출자가 익숙하지 않은 용어 및 구문을 듣는 사람은 프롬프트가 표시된 후 10-30 초 내에 해당 단어를 기억할 수 없지만 최상의 사운드를 선택한 손가락 위로 가져 가거나 선택 순서를 기억할 수 있습니다.

이 개발에 투자하는 이유는 무엇입니까?

이것은 이상한 질문입니다. 일반적으로 IVR 환경에서 말을 사용할지 여부를 결정하는 것은 세상의 개발 관점에서 이끌어 내지 않습니다. 연설이 정말로 필요한 특수한 요구 사항이 없다면 거의 모든 성공 확률을 줄일 수 있습니다. 연설은 일반적으로 회사 이미지의 요소입니다 ... 최신 기술 장난감을 가지고 있습니다.

휴대 전화를 들지 않고도 차 안에있을 때 플러스가 되겠지만 추가 대기 시간이 충분합니까?

현대 ASR을 사용할 때 음성 인식 대기 시간이 높지 않습니다. 대부분의 경우, 입력은 음성과 병행하여 처리되며 음성 인식 종료 사이의 시간은 0.5 ~ 1 초입니다. 많은 IVR은 일부 입력 후에 데이터 조회를 수행해야하며 이는 느린 시스템으로 나타날 수 있음을 알아 두십시오. 보통 1s를 초과하는 입력은 일반적으로 전원 부족 배포의 신호입니다.

원본 구현시 전원이 부족한 것은 아니지만 조정 작업을 통해 성능 대 정확성을 결정할 수 있습니다. 그 다음 0.1 %를 얻으려면 리소스를 최고 수준으로 올려야합니다.

또한, 신뢰성이보다 더 확실히, 하지만 언젠가는 그것이 미래 느낄 수 있도록 시스템에 연결하는 장난감 누군가가 을 결정보다 같은 느낌이 든다.

일반적으로 예. 신뢰성 노트에서 시스템의 의미를 파악하려면 전체 숫자를 실제로 봐야합니다. 그것은 개인이별로 중요하지 않은 통계의 전쟁입니다 (VP 이상의 직위를 보유하지 않는 한). 입력 최적화 (프롬프트 전환), 리소스 사용 및 기타 음성 리코딩 튜닝 매개 변수를 통해 정확도를 극대화하려고 시도합니다. 기본적인 자연 언어 응답을 위해서는 90 대 초반에 들어갈 수 있습니다. 그러나 전반적인 성공률은 훨씬 낮습니다. 5 개의 프롬프트를 모두 98 %로 상상해보십시오. 실제로는 .99 * 98 * .98 * .98 * .98 = 90 %입니다. 즉, 10 점 중 1 점이 실패한 것입니다. 그것은 호출자 혼란과 비즈니스 규칙 이전입니다.DTMF 입력은 보통 여러 입력 후에도 거의 100 %에 가깝습니다.

이 음성 인식을 사용하거나 사용하지 않는 IVR 또는 소프트웨어를 설계 한 경험이 있습니까? 예. 그러나, 나는 그것이 정말로 당신이 원하는 질문이 아니라고 생각합니다. 기술 측면의 누군가로서, 이것은 보통 귀하의 결정이 아니며 귀하는 그것에 대한 영향력을 제한합니다.

장점 : 당신이 정말로 언론의 장점/단점을 찾고 있습니다.

  • 쿨/엉덩이 (주, 혼자 연설은 당신은 좋은 VUI 음성 재능을 충분히 필요가있다)
  • 귀 조각을 피하는 매우 이동성이 많은 군중에게 좋습니다. 미래는 연설을 촉각 적 입력과 혼합하는 것으로되어 있습니다. 아마도. 아마 시장의 IVR 측면에서 오지 않을 것입니다.
  • DTMF로 수행 할 수없는 작업에 적합합니다. 이 문제들 중 많은 부분은 스피치에서도 낮은 성공률을 보이는 경향이 있습니다. 일반적으로 비용 (대 인간)은 유용성이 아니라 운전 요소입니다. 주소 변경과 같은 작업을 위해 음성 사서함으로 통화를 끊는 것은 비용 효과적 일 수 있습니다.

단점 : 개발

  • 비싼, 배포 및 유지 관리합니다. 새로운 선택 사항을 추가하는 것은 신중하지 않으면 성공률에 큰 영향을 줄 수 있습니다. 변화의 영향을 항상 모니터하십시오.
  • 종종 부적절하게 배포됩니다. 예를 들어 숫자 메뉴 선택 만하면됩니다. 이것은 거의 우리가 연설의 차가움을 원하는 경우이지만, 연설의 차가움을 얻기 위해 실제로 필요한 것을 감당할 수는 없습니다.
  • 성공률이 낮아 지므로 콜센터 비용이 높아집니다.
  • 오류는 특정 메시지 및 개별 발신자에게 집중되는 경향이 있습니다. 정기적으로 시스템에 문제가있는 발신자는 매우 불만 스러울 것입니다.
  • 발신자가 이해하지 못하면 화가납니다. 고객 기반의 일부를 식별하여 실제로 화를 낼 목표는 무엇입니까?
+0

좋은 답변입니다. 감사. 추가 대기 시간에 관해서는 음성 분석에 필요한 시스템 시간보다는 시스템과 상호 작용하는 방법을 설명하는 데 필요한 긴 프롬프트를 주로 언급했습니다. 프롬프트는 종종 다음과 같습니다. "1을 눌러 청구서에 액세스하거나 '청구서'를 크고 선명하게 말하고 2를 눌러 다른 사람과 이야기하거나 '중얼 거리는 동안 불가능'이라고 말하십시오. – lpfavreau

1

나는 어떤 입력 방법과 마찬가지로 음성 인식도 프로와 사기가 있다고 생각한다.

프로의

  • 없음 학습 곡선, 우리는 아주 어린 나이부터 말하기되지 않았습니다.
  • 매우 직관적입니다.
  • 휴대 전화에서 헤드셋을 귀에 대고 계속 움직일 필요가 없습니다.

콘의

  • 긴 대기 시간
  • 나쁜 음질, 선택의 권리를 얻기 위해 여러 시도를 취합니다.
+1

또한 성능을 최적화하기 위해 사용자 별 교육이 필요하다는 제한이 있습니다. 특이한 억양이있는 경우 일반적으로 숙련 된 전화 시스템을 사용하면 시간이 많이 걸릴 수 있습니다. –

+0

나는 "귀에서 헤드셋 이동"을 좋아하지만 다른 한편으로는 대부분의 시스템에서 키패드 (NIP, 신용 카드 번호 등)에 적어도 뭔가를 입력해야하며 좋은 IVR은 4 ~ 5 단계의 깊이보다 깊어? 전화를 너무 많이해서는 안됩니다. – lpfavreau

+0

@Ipfavreau : 필자는 실망스러운 노력을하는 경향이 있지만 실제로 각 번호를 말한 시스템을 발견했습니다. –

1

회전 전화를 처리해야하는 경우가 있습니다. 두 가지가 아닌 인식 시스템을 설정하는 것보다 비용이 많이 드는 것으로 밝혀 질 수 있습니다.

음성 인식은 터치 톤보다 훨씬 많은 오버 헤드가 있습니다. 최상의 결과를 원한다면 끊임없이 응용 프로그램을 조정하고 인식 할 수없는 단어 발음을 시스템에 훈련시켜야합니다. 또한 음성 인식으로 사용자를 안내하는 방법에 대해 매우 구체적이어야합니다. 그렇지 않으면 예기치 않은 응답이 발생할 수 있습니다.

주어진 시간에 가능한 옵션 집합이 제한되어 있기 때문에 전반적인 터치 톤이 훨씬 쉽습니다.

앱이 곧장 앞으로 나올 때 음성으로 녹음하면 많은 사람들이 복잡하게 만듭니다. 다른 언어로 2를 누르십시오 ..

1

음성 인식은 터치 스크린 기술과 결합했을 때 미래의 물결입니다. 예를 들어 나는 음성 인식을 사용한다. XP 및 Vista 버전에서 사용할 수 있습니다. Microsoft의 터치 스크린 "Surface"플랫폼이 Vista에서 실행되기 때문에 tazti는 터치 스크린 기술을 사용할 수 있습니다. 내가 음성 인식을 시도했을 때 내장 명령어가 훌륭하게 작동했다.또한 그것은 나 자신의 연설 명령을 만들어 내고 그것들은 또한 훌륭하게 작동합니다. 음성 검색 Google 및 Yahoo, Wikipedia Youtube 및 기타 여러 검색 엔진은 훌륭하게 작동합니다. 다른 많은 기능도 있습니다. 그러나 받아쓰기가 없습니다. 나는 나의 인터넷 생성 된 클릭의 70 % 이상을 제거했다는 것을 발견했다. 참고 : Tazti는 웹 사이트에서 무료로 다운로드 할 수 있습니다.