AI может забронировать ресторан или парикмахерскую, но не ждите полного разговора Конечно, ваш помощник по искусственному интеллекту может записать вам встречу, но как насчет любого значимого разговора? Shutterstock / Bas Nastassia

Google недавно представила его последний говорящий AI, называется Duplex. Дуплекс звучит как настоящий человек, в комплекте с паузами, «ум» и «ааа».

Технический гигант говорит, что может разговаривать с людьми по телефону, чтобы назначать встречи и проверять часы работы.

Дуплекс планирование парикмахерского назначения. Google445 KB (Скачать)

В записанных разговорах, сыгранных на презентации Google, он без проблем общался с людьми на принимающей стороне, которые, казалось, совершенно не знали, что они не разговаривают с другим человеком.

Дуплекс вызывает ресторан. Google399 KB (Скачать)

Эти звонки оставили ориентированная на технологии аудитория на выставке Google задыхается и подбадривает, В одном примере ИИ даже понимал, когда человек, с которым он разговаривал, перепутал, и мог продолжать следить за разговором и отвечать соответствующим образом, когда ему сказали, что ему не нужно бронировать.


графика подписки внутри себя


Подъем помощников ИИ

Если вы использовали какой-либо из доступных на данный момент голосовых помощников, таких как Google Home, Apple Siri или Amazon EchoЭта гибкость может вас удивить. Эти помощники заведомо трудный использовать для чего-либо, кроме стандартных запросов, таких как телефонный контакт, воспроизведение песни, простой поиск в Интернете или установка напоминания.

Когда мы говорим с этими помощниками текущего поколения, мы всегда осознаем, что говорим с ИИ, и мы часто адаптируем то, что говорим, таким образом, который, как мы надеемся, максимально увеличивает наши шансы заставить его работать.

Но люди, разговаривающие с дуплексом, понятия не имели. Они колебались, возвращались назад, пропускали слова и даже частично меняли факты в предложении. Дуплекс не пропустил ни секунды. Казалось, он действительно понимал, что происходит.


Прочитайте больше: Умные колонки могут стать переломным моментом для домашней автоматизации


Значит, будущее наступило раньше, чем кто-либо ожидал? Неужели мир будет полон онлайн (и по телефону) помощников ИИ, которые радостно общаются и делают все для нас? Или, что еще хуже, мы вдруг будем окружены интеллектуальными ИИ с их собственными мыслями и идеями, которые могут включать или не включать нас, людей?

Ответ - однозначное «нет». Чтобы понять почему, полезно взглянуть изнутри на то, что движет ИИ, таким как этот.

Дуплекс: как это работает

Это то, что Дуплексная система AI выглядит как.

Входящий звук обрабатывается через систему ASR. Это создает текст, который анализируется с помощью данных контекста и других входных данных, чтобы получить текст ответа, который читается вслух через систему преобразования текста в речь (TTS). Google

Система принимает «ввод» (показан слева), который является голосом человека, с которым он разговаривает по телефону. Голос проходит через автоматическое распознавание речи (ASR) и преобразуется в текст (письменные слова). ASR сама по себе является продвинутой системой искусственного интеллекта, но она уже используется в существующих голосовых помощниках.

Затем текст сканируется, чтобы определить тип предложения (например, приветствие, утверждение, вопрос или инструкция) и извлечь любую важную информацию. Ключевая информация затем становится частью контекста, который является дополнительным вводом, который поддерживает систему в курсе того, что уже было сказано в разговоре.

Текст из ASR и контекста затем отправляется в сердце дуплекса, которое называется искусственной нейронной сетью (ANN).

На приведенной выше диаграмме ИНС показан кружками и линиями, их соединяющими. ИНС слабо смоделированы на нашем мозге, которые имеют миллиарды нейронов, соединенных в огромные сети.

Пока не совсем мозг

ИНС гораздо проще, чем наш мозг, хотя. Единственное, что пытается сделать это - сопоставить входные слова с соответствующим ответом. ANN учится, показывая транскрипты тысяч разговоров людей, делающих заказы для ресторанов.

С достаточным количеством примеров он узнает, какие вводные предложения ожидать от человека, с которым он разговаривает, и какие ответы дать для каждого из них.

Текстовый ответ, который генерирует ANN, затем отправляется в синтезатор преобразования текста в речь (TTS), который преобразует его в произнесенные слова, которые затем воспроизводятся человеку по телефону.

Еще раз, этот синтезатор TTS - продвинутый ИИ - в этом случае он более продвинут, чем тот, что на вашем телефоне, потому что он звучит почти неотличимо от любого нормального голоса.

Это все, что нужно сделать. Несмотря на то, что она является самой современной, сердце системы на самом деле представляет собой просто процесс сопоставления текста. Но вы можете спросить - если это так просто, почему мы не можем сделать это раньше?

Выученный ответ

Дело в том, что человеческий язык и большинство других вещей в реальном мире слишком изменчивы и неупорядоченны, чтобы с ними хорошо справлялись обычные компьютеры, но такая проблема идеально подходит для ИИ.

Обратите внимание, что вывод, производимый ИИ, полностью зависит от разговоров, которые он показывал во время обучения.

Это означает, что различные ИИ должны быть обучены делать заказы разных типов - так, например, один ИИ может бронировать рестораны, а другой - записываться на прически.

Это необходимо, потому что типы вопросов и ответов могут сильно различаться для разных типов бронирований. Это также, как дуплекс может быть намного лучше, чем обычные голосовые помощники, которые должны обрабатывать многие типы запросов.

Так что теперь должно быть очевидно, что у нас не будет случайных разговоров с нашими помощниками ИИ в ближайшее время. Фактически, все наши текущие ИИ на самом деле являются не чем иным, как сопоставителями шаблонов (в данном случае, сопоставлением шаблонов текста). Они не понимают, что они слышат, или на что они смотрят, или что они говорят.

Сопоставление с образцом - это одна вещь, которую делает наш мозг, но они также делают намного больше. Ключом к созданию более мощного ИИ может стать раскрытие большего количества секретов мозга. Мы хотим? Хорошо, это Другой вопрос.Беседа

Об авторе

Питер Страттон, доктор наук, Университет Квинсленда

Эта статья переиздана из Беседа под лицензией Creative Commons. Прочтите оригинал статьи.