Будинки Аудіо Чим відрізняється мовлення від тексту та чатів?

Чим відрізняється мовлення від тексту та чатів?

Anonim

Q:

Чим відрізняється мовлення від тексту та чатів?

A:

Численні суттєві відмінності між технологіями мови та тексту та чатботами є частиною того, що вивчається у швидкій еволюції проектів чатових та голосових роботів.

Технологія мовлення в текст - це просто технологія, яка перетворює словесну мову в текст на цифровій сторінці. Це його повноцінна функція, але це не одна проста конструкція. Щоб перетворити словесне мовлення в текст, технологія повинна розбивати слова та речення на окремі фонеми та працювати з ними за складними алгоритмами, щоб створити текст, який є точним і являє собою те, що сказав мовець.

З іншого боку, чати - це технології, що досягають мети спілкування з людиною. Існує два типи чатів: текстові чати та голосові. Текстові чати існують набагато довше, оскільки їм не потрібен елемент мовлення до тексту, який використовують голосові роботи.

Основна відмінність технологій мовлення в тексті від чат-ботів полягає в масштабі. Як уже згадувалося, все, що потрібно робити в мовленні, - це переписати усне мовлення. З іншого боку, чат-бот повинен сприймати виступ у будь-якій формі, для якої він створений, розуміти це та надавати відповіді, які прагнуть пройти тест Тьюрінга - тест на те, чи може технологія обдурити людину думати, що він чи вона розмовляючи з іншою людиною.

Зважаючи на це, чатові створювати набагато простіше, ніж голосові. Чатбот бере текст людини і надає текстову відповідь. Навіть відносно прості чати змогли забезпечити цікаві та приємні результати для людини з кінця 1980-х та початку 1990-х.

З іншого боку, голосовий робочий апарат повинен сприймати словесне мовлення, перетворювати його в текст, перевіряти його на точність, виробляти відповідь і будувати цю відповідь з машинної мови на чутну мову. Ця велика кількість досить значущих завдань означає, що голосовий робочий апарат вимагає великої кількості обчислювальної потужності та багато дизайну.

Такі проекти, як Siri, Cortana та Alexa, демонструють частину авангарду технологій голосових роботів. Вони також ілюструють, що ця технологія ще знаходиться в зародковому стані. Хоча Alexa та інші технології можуть відповідати словесно на людську мову, вони не надто здатні в тому сенсі, який ми асоціюємо з словесною людською промовою в цілому. Іншими словами, існує достатня кількість обмежень у відповідях, які ці технології можуть надати. Сьогодні існує навіть обмежена здатність особистих помічників по-справжньому створювати мовлення до тексту, наприклад, для транскрибування електронної пошти чи надання допомоги комусь із написання реферату, не користуючись руками. Деякі конкретні програми, що передаються текстовими повідомленнями на ринку, роблять це краще, ніж Siri або Cortana, ймовірно, завдяки розподілу ресурсів. Однак є ознаки того, що незабаром відбудеться прогрес голосових роботів - наприклад, платформа Lex Amazon, яка дозволяє студійному середовищу будувати такі технології.

У розумному та повчальному нарисі на цю тему Тобіас Гебель розповідає про різницю між цими технологіями, протиставляючи процес "транскрибування", який виконує мова у тексті, до роботи з розумінням, яку чат-боти повинні робити.

"Хоча усунення потреби в розпізнаванні мовлення полегшує роботу чатботу, головне завдання побудови функціонуючих ботів полягає в розумінні природної мови", - пише Гебель.

Goebel також визначає багатьох сучасних гравців у галузі:

Лідером на ринку розпізнавання мовлення є Nuance, який стоїть за відомими системами, такими як Dragon NaturallySpeaking за диктантом на ПК, який існує вже з дев'яностих років, але також і Siri: завдання розпізнавання / транскрипції мовлення, що використовується в хмарі Apple, використовує Нюансова технологія за кадром. Інші - LumenVox, Verbio або Interactions, але розпізнавання мовлення тепер також пропонується як хмарна послуга через API, схожі на Amazon, Google, Microsoft та IBM.

У міру розвитку чатів передбачається, що їх розуміння буде продовжувати зростати на певній траєкторії - і також багато в чому передбачається, що більше бот-технологій перейде від текстових інтерфейсів до словесних інтерфейсів, що вимагатиме додаткової кількості обчислювальної потужності.

Чим відрізняється мовлення від тексту та чатів?