Я чую мертвих людей? Технологія природної мови змушує минулі та сучасні голоси оживати

2025

Зміст:

Великі зміни в НЛП
Захоплюючі твори "Текст на голос" у VivoText
Штучний голос у маркетингу
Ваш голос живе далі
У 2525 році

У наші дні більшість комп'ютерних голосів - це пасе. Ви, мабуть, не надто розчулюєтесь щодо кіборгів і роботів, коли чуєте "дроїд" на своєму телефоні, який допомагає вам сплатити рахунок або запитаєте, який відділ ви хочете. Але що робити, якщо ви раптом почули, як Курт Кобейн подає вам інформацію про карту? Або Джон Ф. Кеннеді розповідає вам про чудеса дострокового голосування? Або Елвіс отримує ваше ім’я та адресу, перш ніж втрутитися в "шматок, шматок палаючої любові?"

Все це було б… якось дивно, але що ще більш захоплююче - це те, що в основному технологія вже є тут. Всього десять років тому ми були вражені здатністю комп’ютера взагалі навіть говорити. Тепер нас чекає свобода голосів, створених комп'ютером, які звучать так само, як люди, яких ми знаємо.

Великі зміни в НЛП

Якщо ви звертаєте увагу на сферу обробки природних мов (NLP), можливо, ви чули про недавні досягнення, які виходять за рамки тих типів голосових віртуальних помічників, які ми зараз чуємо в наших глобальних системах позиціонування (GPS) та автоматизованому бізнесі телефонні лінії.

Початок НЛП вимагало цілого ряду досліджень загальної механіки людського мовлення. Дослідникам та інженерам довелося визначити індивідуальну фонетику, скласти їх у більші алгоритми для генерування фраз та речень, а потім спробувати керувати усім цим на метарівні, щоб генерувати щось, що звучало реально. З часом лідери НЛП освоїли це і почали будувати передові алгоритми, щоб зрозуміти, що кажуть люди. Збираючи ці два разом, компанії придумали драйверів для сьогоднішніх віртуальних помічників та цілком цифрових службовців з оплати рахунків, чиї манеризми - хоча і дратують - все ще дивують, коли ви перестаєте думати про роботу, яка їх уклала.

Зараз деякі компанії виходять за межі загального віртуального голосу, щоб зібрати більш конкретний персоналізований результат. Для цього потрібно пройти лексикон конкретної людини та зібрати велику кількість унікального голосового відео, потім застосувати цей архів до складних ритмів для фонетики, наголосу, каденції та всіх інших крихітних підказок, які мовознавці часто групують під широким прапором "просодії".

Що виходить - це голос, який слухачі вважають "належним" певній людині - або тому, кого вони знають і з ким розмовляли, або тим, чий голос вони визнають в результаті слави людини.

Від Елвіса до Мартіна Лютера Кінга тепер голос будь-кого можна "клонувати" таким чином - за умови, що є значна заздалегідь записана їхня промова. Застосовуючи ще більш детальний аналіз та маніпуляції з окремими невеликими звуками, компанії мають змогу зробити віртуальну копію з чийогось голосу, який дуже схожий на реальну річ.

Захоплюючі твори "Текст на голос" у VivoText

Наприклад, VivoText - це одна компанія, яка працює над тим, щоб зробити революцію у використанні штучних людських голосів для всіляких кампаній - від аудіокниг до інтерактивної голосової відповіді (IVR). У VivoText науково-виробничі колективи працюють над процесами, які теоретично можуть конкретно повторити голоси померлих знаменитостей, наприклад, самого Ol 'Blue Eyes.

"Щоб клонувати голос Френка Сінатри, ми насправді пережили б його записану спадщину", - говорить генеральний директор VivoText Гершон Сілберт, розповідаючи про те, як можуть працювати такі технології.

Зараз VivoText працює над архівуванням голосів тих, хто все ще з нами, наприклад, кореспондентом NPR Нілом Конан, який зареєструвався як модель для такого типу піонерських проектів ІТ. Промо-відео показує, що працівники VivoText старанно створюють фонетичні модулі коду, використовуючи наданий голосовий ввід від Conan. Потім вони створюють моделі інструментів для текстового мовлення (TTS), які викликають різко людський і персоніфікований результат.

За словами Бена Фійблемана, віце-президента з стратегії та розвитку бізнесу VivoText, комп'ютер працює на фонематичному рівні (використовуючи найменші унікальні частини мови), щоб відповідати прозодичній моделі для індивідуального людського голосу.

"Він знає, як голос розмовляє", - каже Фійбілман, додаючи, що за допомогою "вибору одиниці" комп'ютер вибирає кількість фрагментів, щоб скласти одне коротке слово, наприклад, де слово "п’ятниця" надає п'ять компонентів, які допомагають розвиватися особливий акцент та тональний результат.

Штучний голос у маркетингу

Отже, як це працює в маркетингу? Продукти VivoText можуть бути надзвичайно корисними для створення таких продуктів, як аудіокниги, які можуть охопити цільову аудиторію. Наприклад, наскільки ефективнішим був би голос Елвіса в порівнянні з одним із загальних, мертвих, автоматизованих голосів, якби він використовувався для продажу продуктів, що стосуються розваг?

Або як щодо політики? Feibleman працював над різними ідеями щодо використання таких проектів, щоб покращити маркетинг для компаній або інших сторін, яким потрібні ефективніші повідомлення.

"Якщо ви знаєте, хто-небудь політик, який балотується в президенти, це може призвести до того, що 10 мільйонів виборців штатів можуть отримати персональний дзвінок від кандидата, подякувавши їм за підтримку, сказавши, куди їм потрібно йти голосувати, погоду та всі обрізки ніч перед виборами ", - сказав Фейблеман.

Ваш голос живе далі

Існує ще одне очевидне застосування до всієї цієї технології. Компанії з природних мов, такі як VivoText, можуть створити персональну послугу, яка б завантажувала всі голосові дані клієнта в продукт, який дозволив би цій людині "говорити вічно".

Практична реалізація, ймовірно, викличе ряд питань щодо того, як ми чуємо та інтерналізуємо вимовлені голоси. Наприклад, що потрібно, щоб звуковий потік звучав так, як хтось? Наскільки добре ми маємо пізнати людину, щоб розпізнати певний голос? І що цікаво, що станеться, якщо служба природних мов створює грубу карикатуру, а не переконливу мімікрію?

Оцінка результатів, каже Фійблеман, часто залежить від врахування контексту. Наприклад, він каже, що діти зазвичай не ставлять запитань про те, хто говорить, коли слухають історію. Вони просто хочуть більше. Але також багато дорослих можуть не замислюватися про те, хто з ними розмовляє, враховуючи певний сценарій, наприклад пасивне мовлення або повідомлення по телефону. Крім того, легше обдурити комп’ютер по телефону, оскільки приглушений звук може замаскувати збої або інші розбіжності між результатами комп'ютера та голосом людини.

"Вам не спадає на думку оскаржувати справжність голосу", - каже Фійбілман.

У 2525 році

По мірі того, як компанії рухаються вперед у розробці продуктів і послуг і відповідають на ці питання, технології "живого мовлення" можуть просунути нас до тієї конвергенції технологій і людського розуму, яку класично називають штучним інтелектом (ШІ).

Якщо комп’ютери можуть говорити так, як ми, вони, можливо, зможуть підманути інших користувачів думати, що вони думають як ми, поглинаючись в більш широкий принцип сингулярності, як це введено в наш лексикон Джоном фон Нейманом, піонером технічної епохи 1950-х років, евангелізованим письменниками та мислителі, як Рей Курцвейл. Книга Курцвейла 2005 року "Сингулярність поруч" хвилює одних і лякає інших. Курцвейл передбачив, що до 2045 р. "Інтелект" як явище стане сильно пов'язаним з людським мозком і перейде в технології, розмиваючи лінії між машинами та їхніми людськими господарями.

Увічнена у ліриці фільму Загера та Еванса "У році 2525" (ніхто не робить моторошних науково-фантастичних балад, як ці хлопці) …

У 4545 році

Вам не знадобляться зуби, не знадобляться

твої очі

Ви не знайдете, що жувати

На тебе ніхто не дивиться

У 5555 році

Ваші руки звисають з боків

Ваші ноги нічого не роблять

Якась машина робить це для вас

Чи голоси комп’ютера є кроком у цьому напрямку? Як новий спосіб передавати деякі функції людського тіла (або, звичайно, моделювати їх), такий вид технічного прогресу є одним з найбільших - і, мабуть, недооцінених - прогресів на горизонті, коли ми дивимось у єдине майбутнє . (про "особливість" у "Чи зможуть комп’ютери наслідувати людський розум?")