Будинки Програмне забезпечення Технологія розпізнавання голосу: корисна чи болюча?

Технологія розпізнавання голосу: корисна чи болюча?

Зміст:

Anonim

Ви коли-небудь телефонували в компанію, щоб отримати допомогу або заплатити рахунок, лише щоб вас привітав приємний записаний голос, який хоче поговорити з вами - але не можете зрозуміти половину того, що ви говорите? Або, можливо, у вас є iPhone, і хоча Сірі спочатку здавалася хорошим союзником, ви зрозуміли, що іноді (гаразд, будемо чесними, часто) вона просто не розуміє цього? Технологія розпізнавання голосу (VRT), також відома як мова в текст, потрапляє в загальну пастку: вона має потенціал бути неймовірно крутим (а хлопчик, чи ми за це вкорінюємось), але частіше - це чистка зубів. вправа в розчаруванні.


Колись ідея, що входила у сферу наукової фантастики, розпізнавання голосу виросла з моменту народження в 50-х роках минулого століття, коли система Bell Laboratories Audrey була розроблена для розпізнавання цифр, промовлених в один голос, до сучасної мережі розмовної електроніки, з якою ми зараз взаємодіємо. щодня - зі змішаними результатами.

Щоб поговорити з людиною, натисніть 0

Зараз багато підприємств сьогодні використовують системи, що називаються інтерактивним голосовим реагуванням (IVR) для обробки дзвінків із обслуговування клієнтів. Найчастіше це використовується для голосових меню, але деякі компанії використовують системи IVR, які мають доступ до інформації облікових записів клієнтів та відповідають на незначні запитання. Програмне забезпечення для меню IVR зазвичай має обмежений словниковий запас, який може бути обмежений "так", "ні" та числами. Складніші системи можуть розпізнавати конкретні для компанії слова та фрази.


Ці системи стають все більш популярними - принаймні для підприємств - з простої причини: вони економічно вигідні. Згідно з доповіддю Wall Street Journal за 2010 рік, типовий дзвінок клієнта, який досягає агента, коштує від 3 до 9 доларів, тоді як виклик, який обробляється через автоматизовану систему, коштує лише п'ять-сім центів. І, звичайно, комп’ютерні програми не втомлюються, дзвонять хворим або не засмучуються клієнтами (хоча клієнти, звичайно, зриваються від них!).


На щастя, це не завжди означає, що IVR забирає роботу у людей - або принаймні, що всі люди зникають з кол-центрів. Ці голосові помічники дозволяють представникам служби обслуговування людей бути більш продуктивними, спрямовуючи дзвінки та відповідаючи на прості запитання.


Звичайно для користувачів, які взаємодіють із цими технологіями, це не завжди плавне плавання. Технологія допомагає покращити загальні проблеми технології IVR, наприклад, проблеми з акцентами, але звільнення автоматизованих систем все ще є поширеною темою в Інтернеті. Перегляньте цей комедійний скейт про ліфт, оснащений розпізнаванням голосу, який підкреслює розчарування, яке може спричинити несправність в системах IVR.

Програми для персональних телефонів: Siri, Google Now

Більшість людей знайомі з розпізнаванням голосу для смартфонів. Незважаючи на те, що більшість останніх моделей телефонів оснащені VR, їх популярність - і відомість - зменшилася, коли компанія Apple представила Siri, м'яко саркастичний, "голосовий помічник" для iPhone 4S в 2011 році. Google незабаром створив прямого конкурента: Google Тепер для ОС Android Jelly Bean. Обидві системи мають жіночі голоси та складні функції розпізнавання, які дозволяють користувачам "розмовляти" на своїх телефонах за допомогою випадкової мови.


Але хоча ці системи значно складніші та функціональніші, ніж їх попередники, вони також показують, що технологія ще має пройти довгий шлях. Жарти з приводу невдачі Сірі стали популярним інтернет-мемом. Один чоловік навіть подав до суду на Apple за фальшиву рекламу щодо можливостей Siri.


Можливо, тому, хоча Apple створила Siri, щоб бути передовою та інформативною, програмне забезпечення VR також мало нахильне. Наприклад, якщо ви говорите про одну з найвідоміших ліній з питань розвідки в історії кіно з фільму 1968 року "2001: Космічна Одіссея" - "Відкрийте двері в бухті стручка" - Сірі відповість або будь-яким рядком відповіді з фільму " Вибачте (ваше ім'я), боюся, що я не можу цього зробити ", або ще більш саркастично, " ми, агенти розвідки, ніколи цього не знижуватимемо ".


Зателефонувати вам по імені - лише одна з функцій, яка намагається зробити Сірі легше кохати і трохи більше людської. Асистент VR може виконувати голосові команди, щоб телефонувати, приймати диктанти та надсилати тексти, виконувати пошук в Інтернеті інформації, знаходити магазини, що знаходяться поблизу, давати вказівки щодо руху та інше, і все це не потрібно нічого торкатися. Відповіді одночасно вимовляються телефоном і відображаються на екрані.


Google Now, частина VR платформи Android Jelly Bean, дуже схожа на Siri. Система пропонує такі ж широкі можливості розпізнавання, перетворюючи випадкову мову в команди, які дозволяють користувачам здійснювати дзвінки, надсилати тексти, виконувати пошук, виконувати обчислення та перетворення, захоплювати визначення слів, встановлювати сигнали тривоги, грати пісні та отримувати карти та вказівки.


Для особистих голосових асистентів, таких як Siri та Google Now, переваги очевидні. Все, починаючи від дзвінків та надсилання повідомлень до пошуку та розваг, проходить швидше та простіше. Просто скажіть, що ви хочете, і (більшість випадків) програма VR захоплює це за вас. Технологія відключення VR особливо корисна під час руху. І хоча багато людей заперечують недоліки Siri, а письменники стверджують, що здатність Google Now по суті керувати життями користувачів є жахливою і трохи ображаючою, більшість людей все ще вважають, що ці футуристичні технології є досить крутими.


Звичайно, додатки для персональних телефонів, такі як Siri та Google Now, далеко не ідеальні, хоча вони і показують, куди ця технологія може бути спрямована в майбутньому. Це означає, що навіть коли Сірі виявиться невірною відповіддю, ми, швидше за все, сміятимемося і прощатимемо їй, знаючи, що наступна версія буде набагато кращою.

Там, де ВР падає плоско

Якщо ви коли-небудь стикалися з IVR, коли ви телефонували в бізнес, можливо, ви помітили певні бар'єри у спілкуванні. Деякі програми використовують робототехнічний голос із текстовим мовленням, який неправильно вимовляє слова та ускладнює розуміння речей. Інші проблеми з чутливістю призводять до того, що програмне забезпечення не може обробити те, що ви говорите, якщо ви занадто гучні, занадто м'які або не ретельно вимовляєтесь.


Крім того, багато людей все ще просто не відчувають себе комфортно розмовляти з машиною. Якщо ви здійснили кілька пошукових запитів на IVR, ви зіткнетесь зі списками, які люди зібрали способи обійти системи IVR та потрапити до "реальної людини". Це рішення варіюється від "продовжувати натискати 0 для оператора" до "присягати в машині, поки вона не знайде людину". Як результат, значна частина останніх розробок систем IVR обертається навколо того, щоб зробити їх більш приємними для людини; роблячи голоси більш симпатичними та менш робототехнічними, полегшуючи систему навігацією та даючи можливість абонентам знати, скільки часу триватиме ця справа від початку до кінця. Це говорить про те, що краща технологія - це лише половина битви; інша половина - це залучення користувачів до роботи, спілкуючись із машиною.

Що тримає майбутнє

Незважаючи на ці виклики, технологія розпізнавання голосу постійно вдосконалюється. Такі програми, як Siri та Google Now - недоліки та всі - все ще надзвичайно вражають своєю ефективністю, і кілька компаній розширюють можливості VR на інші програми.


Наприклад, Nuance, творці програмного забезпечення для мовлення Dragon NaturallySpeaking, вже розробили голосові управління для телевізорів і автомобілів, а версії цієї технології включені в деякі телевізори Samsung та розважальні системи SYNC, які використовуються в певних автомобілях Ford.


Оскільки Google і Apple продовжують знаходити нові можливості для своїх технологій розпізнавання голосу, ймовірно, що ми будемо все частіше спілкуватися з усіма побутовими машинами, від телевізорів до наших тостерів. І, знову ж таки, схоже, наукова фантастика була правильною. Треба буде просто сподіватися, що розумні письменники помилялися в одному. Якщо ці машини перейдуть на владу, ви, можливо, наступного разу попросите Сірі "відчинити двері в бухті стручка".

Технологія розпізнавання голосу: корисна чи болюча?