Talk To Me Компьютер: голосовое управление снимает

Если в вашей двери появятся неожиданные пакеты, вам может потребоваться слово с одним из ваших смарт-устройств.

Ранее в этом месяце шестилетний ребенок в Далласе спросил ее семью Amazon Echo умный динамик для кукольного домика. И Алекс, сирийский искусственный помощник Амазонки, быстро приказал одному в их доме.

Телевизионное шоу в Сан-Диего подобрало эту историю и случайно повторило ее, когда один из новостных анкеров прокомментировал: «Я люблю девочку, говоря:« Алекса заказывает мне кукольный домик ». Подслушав это, несколько других устройств Amazon в домах Сан Диего попытались купить больше кукольных домиков.

CW6 Новости Сан-Диего о случайной покупке кукольного дома Алекса.

{youtube}oI2KLIULjXc{/youtube}

История может показаться печально знакомой всем, кто пытался поговорить с Apple Siri или Microsoft Cortana. Наши устройства стали хорошо слушать нас, но это не всегда означает, что они понимают.

Исследователи из Microsoft недавно выявили это как потенциальную проблему с сегодняшними переговорными интерфейсами: они продаются как «умные» помощники, с умными шуточками и мирскими знаниями, но они часто срывают нас с отсутствием здравого смысла.


графика подписки внутри себя


В небольшое исследование, исследователи обнаружили, что люди, которые со временем разговаривали со своими цифровыми помощниками, были теми, кто начинал с самых низких ожиданий.

Что на самом деле делает голосовой интерфейс?

Когда вы говорите с голосовым интерфейсом, он должен:

  • «Услышать» звук вашего голоса и отличить его от фонового шума
  • выяснить, где каждое слово начинается и заканчивается, игнорируя ваши «umms» и «ahhs»,
  • сопоставлять звук каждого слова с словом в словаре, выбирая правильный из контекста, если есть омофонами
  • правильно интерпретировать смысл всего предложения
  • генерировать полезный и полезный ответ, соответствующий вашему запросу.

Каждый из них является сложной технической задачей, и различные технологические компании добились прогресса в разных областях.

Google Now умеет давать соответствующие ответы на широкий спектр запросов, потому что при использовании сервисов Google он может использовать информацию о веб-страницах Google и ваших личных действиях.

Amazon Echo особенно хорошо разбирается в ваших запросах из-за шумной комнаты благодаря шумоподавляющей микрофонной панели с большим разрешением. Конечно, это также хорошо делать покупки через Amazon.

За последние несколько лет голосовые интерфейсы стали намного лучше понимать повседневную или «естественную» речь, а не только сдержанные и тщательно сформулированные команды. Они все еще лучше справляются с простыми запросами, такими как «кто играет в Australian Open?» И склонны бороться с более сложными запросами, такими как «кто играет в Australian Open впервые в этом году?» И последующие действия вопросы, как «будет ли дождь в финале?».

Ситуация еще более смешанная для языков, отличных от английского: хотя Siri поддерживает больше языков и диалектов, чем 40, до сих пор Alexa доступна только на английском и немецком языках. Но все эти функции постоянно улучшаются.

Где голосовой интерфейс заикается

Таким образом, голосовые интерфейсы вскоре овладеют всей нашей технологией, как и предсказывалось в фильме Ее? Gartner, научно-исследовательская фирма, прогноз что к следующему году 30% наших взаимодействий с технологией будет вести переговоры с поддержкой голосовых интерфейсов.

Но голосовые интерфейсы имеют ограничения, и не все из них могут быть решены лучшими технологиями.

Голос является центральным средством взаимодействия с технологией в фильме Спайка Джонсе «Ее».

{youtube}ne6p6MfLBxc{/youtube}

Шумное загрязнение является одним из основных препятствий. Может ли ваше устройство отличать то, что вы говорите, от фонового шума вокруг вас? Технология может помочь в этом, включая снижение шума, персонализированное распознавание голоса и считывание губ.

Но как насчет фонового шума, который вы создаете для других, разговаривая с вашим смарт-устройством? Представьте себе человека, сидящего рядом с вами в офисе - или на самолете - беседуя с Сири, пока вы пытаетесь прочитать, и вы можете понять, почему голосовые интерфейсы не всегда могут быть социально приемлемыми.

Другой набор проблем исходит из умственных требований голосовых интерфейсов. Обучение использованию голосовой системы может быть затруднено, особенно если нет экрана, как в Amazon Echo.

Если вы когда-либо звонили в банк или в телефонную компанию, вы знаете жалкую комбинацию концентрации и скуки, которая приходит от прослушивания синтезированного голосового списка из всех ваших вариантов, пока вы ждете того, что вам нужно, и старайтесь не смешивать их вверх. Традиционные графические интерфейсы избегают этой проблемы, показывая вам доступные параметры и позволяя вам быстро выбрать ваш выбор.

После того, как вы изучили голосовые команды, использование их может отвлекать. Исследователи обнаружили, что голосовые команды сорвать ваш ход мысли больше, чем мышь и клавиатура.

Это особенно опасно для автомобильных голосовых интерфейсов: пара исследований из Университета штата Юта показала, что водители отвлекается до 27 секунд после использования голосовых команд.

Университет штата Юта / Фонд ААА по безопасности дорожного движения, посвященный отвлечению водителей.

{vimeo} 108281698 {/ vimeo}

Поиск его голоса?

Поэтому голосовые интерфейсы вряд ли возьмут верх, но они найдут полезные ниши в нашей жизни. Они уже распространены в автомобилях, и они, надеюсь, станут менее отвлекающими, поскольку технология улучшится.

На кухне вы можете попросить Алекса поговорить с вами по рецепту или обновить список покупок, пока ваши руки заняты приготовлением пищи. В виртуальной и дополненной реальности голосовые интерфейсы могут позволить вам управлять системой, когда вы вообще не видите свои руки.

В изучении языка они могут использоваться для занятий произношением. Самое главное, голосовые интерфейсы помогают пользователям с нарушениями двигательного аппарата, RSI или дислексией преодолевать свои недостатки.

Голосовые интерфейсы - долгожданная технология, и есть веские основания думать, что их время наконец-то наступило. Просто помните, что они, возможно, еще не так умны, как они звучат. И вы можете поместить PIN-код в голосовые покупки, если дети рядом.

Беседа

Об авторе

Фрейзер Эллисон, кандидат в области человеко-компьютерного взаимодействия, Университет Мельбурна

Эта статья изначально была опубликована в Беседа, Прочтите оригинал статьи.

Сопутствующие товары

{amazonWS: searchindex = KindleStore; keywords = AmazonEcho "target =" _ blank "rel =" nofollow noopener "> InnerSelf Market и Amazon