Чим відрізняється мовлення від тексту та чатів?

2025

Численні суттєві відмінності між технологіями мови та тексту та чатботами є частиною того, що вивчається у швидкій еволюції проектів чатових та голосових роботів.

Технологія мовлення в текст - це просто технологія, яка перетворює словесну мову в текст на цифровій сторінці. Це його повноцінна функція, але це не одна проста конструкція. Щоб перетворити словесне мовлення в текст, технологія повинна розбивати слова та речення на окремі фонеми та працювати з ними за складними алгоритмами, щоб створити текст, який є точним і являє собою те, що сказав мовець.

З іншого боку, чати - це технології, що досягають мети спілкування з людиною. Існує два типи чатів: текстові чати та голосові. Текстові чати існують набагато довше, оскільки їм не потрібен елемент мовлення до тексту, який використовують голосові роботи.

Основна відмінність технологій мовлення в тексті від чат-ботів полягає в масштабі. Як уже згадувалося, все, що потрібно робити в мовленні, - це переписати усне мовлення. З іншого боку, чат-бот повинен сприймати виступ у будь-якій формі, для якої він створений, розуміти це та надавати відповіді, які прагнуть пройти тест Тьюрінга - тест на те, чи може технологія обдурити людину думати, що він чи вона розмовляючи з іншою людиною.

Зважаючи на це, чатові створювати набагато простіше, ніж голосові. Чатбот бере текст людини і надає текстову відповідь. Навіть відносно прості чати змогли забезпечити цікаві та приємні результати для людини з кінця 1980-х та початку 1990-х.

З іншого боку, голосовий робочий апарат повинен сприймати словесне мовлення, перетворювати його в текст, перевіряти його на точність, виробляти відповідь і будувати цю відповідь з машинної мови на чутну мову. Ця велика кількість досить значущих завдань означає, що голосовий робочий апарат вимагає великої кількості обчислювальної потужності та багато дизайну.

Такі проекти, як Siri, Cortana та Alexa, демонструють частину авангарду технологій голосових роботів. Вони також ілюструють, що ця технологія ще знаходиться в зародковому стані. Хоча Alexa та інші технології можуть відповідати словесно на людську мову, вони не надто здатні в тому сенсі, який ми асоціюємо з словесною людською промовою в цілому. Іншими словами, існує достатня кількість обмежень у відповідях, які ці технології можуть надати. Сьогодні існує навіть обмежена здатність особистих помічників по-справжньому створювати мовлення до тексту, наприклад, для транскрибування електронної пошти чи надання допомоги комусь із написання реферату, не користуючись руками. Деякі конкретні програми, що передаються текстовими повідомленнями на ринку, роблять це краще, ніж Siri або Cortana, ймовірно, завдяки розподілу ресурсів. Однак є ознаки того, що незабаром відбудеться прогрес голосових роботів - наприклад, платформа Lex Amazon, яка дозволяє студійному середовищу будувати такі технології.

У розумному та повчальному нарисі на цю тему Тобіас Гебель розповідає про різницю між цими технологіями, протиставляючи процес "транскрибування", який виконує мова у тексті, до роботи з розумінням, яку чат-боти повинні робити.

"Хоча усунення потреби в розпізнаванні мовлення полегшує роботу чатботу, головне завдання побудови функціонуючих ботів полягає в розумінні природної мови", - пише Гебель.

Goebel також визначає багатьох сучасних гравців у галузі:

Лідером на ринку розпізнавання мовлення є Nuance, який стоїть за відомими системами, такими як Dragon NaturallySpeaking за диктантом на ПК, який існує вже з дев'яностих років, але також і Siri: завдання розпізнавання / транскрипції мовлення, що використовується в хмарі Apple, використовує Нюансова технологія за кадром. Інші - LumenVox, Verbio або Interactions, але розпізнавання мовлення тепер також пропонується як хмарна послуга через API, схожі на Amazon, Google, Microsoft та IBM.

У міру розвитку чатів передбачається, що їх розуміння буде продовжувати зростати на певній траєкторії - і також багато в чому передбачається, що більше бот-технологій перейде від текстових інтерфейсів до словесних інтерфейсів, що вимагатиме додаткової кількості обчислювальної потужності.

Чим відрізняється мовлення від тексту та чатів?

Чим відрізняється програмне забезпечення erp від програмного забезпечення crm?

Чим відрізняється pagerank від рейтингу пошуку?

Чим відрізняється вірусний маркетинг від звичайного маркетингу?

Вибір редактора

Що таке ефективність програми? - визначення з техопедії

Що це за управління операціями? - визначення з техопедії

Що таке віртуальна інфраструктура? - визначення з техопедії

Що таке органічний світлодіод (олед)? - визначення з техопедії

Вибір редактора

Що таке програма застосування? - визначення з техопедії

Що таке шар програми? - визначення з техопедії

Що таке віртуалізація на робочому столі? - визначення з техопедії

Що таке стек додатків? - визначення з техопедії

Вибір редактора

Що таке trs-80? - визначення з техопедії

Що таке тридержавна логіка? - визначення з техопедії

Що таке живлення? - визначення з техопедії

Що таке turbo c? - визначення з техопедії

Вибір редактора

Що таке локальна розмова? - визначення з техопедії

Що таке хакерство? - визначення з техопедії

Що таке інтернет-реклама? - визначення з техопедії

Що таке інтернет-маркетинг? - визначення з техопедії

Вибір редактора

Що таке інтелектуальний датчик? - визначення з техопедії

Що таке розумний пристрій? - визначення з техопедії

Що таке Америка онлайн (aol)? - визначення з техопедії

Що таке селіфікація? - визначення з техопедії

Популярні категорії