Дырявая абстракция голосовых интерфейсов

Эдриан Цумбрюнен написал о голосовом интерфейсе, который прикидываются человеком: понимает свободные формулировки и демонстрируют эмоции. Эдриан называет такие интерфейсы «скеоморфными» и преподносит их как благо [1].

А я думаю, что они зло. Суть моего несогласия лучше всего сформулировал Алан Купер [2]:

Если так сложно добиться, чтобы люди чётко понимали устные инструкции — как мы собираемся давать устные инструкции компьютерам? Распознать слова — совсем не то же самое, что распознать смысл, а именно смысл критически важен в инструкциях.

У программистов есть расхожее понятие «дырявой абстракции»: когда сложную штуку прячут за простым интерфейсом, но она всячески оттуда вылезает и кусает пользователя за пятки. «Умный» голосовой интерфейс — дырявейшая абстракция над несовершенными алгоритмами распознавания смысла.

Худшие качества любой системы — непредсказуемость (не знаешь, как она себя поведёт) и ненадёжность (часто ломается). «Умные» голосовые интерфейсы сочетают эти свойства — они непредсказуемо ненадёжны. Никогда не знаешь, какая формулировка введёт их в ступор или будет превратно понята.

Настоящая, неигрушечная польза от голосовых интерфейсов — там, где у человека заняты глаза и руки: в автомобиле, в операционной, на заводе. Непредсказуемо ненадёжный интерфейс — катастрофа для этих ситуаций.

При нынешнем уровне технологии я за «тупые», утилитарные голосовые интерфейсы. Такой интерфейс не пытается изображать собеседника — вместо этого решает узкую задачу, зато делает это хорошо. Пример утилитарного интерфейса — голосовой ввод адреса в «Яндекс-навигаторе». Делает одну вещь: записывает адрес со слуха. Зато понимает самые чудовищные акценты и редко ошибается.

А скеоморфные голосовые интерфейсы пусть остаются в играх, развлечениях и дизайнерских статьях на медиуме.


  1. Skeuomorphism In Conversational Design, Эдриан Цумбрюнен ↩︎

  2. Alexa, Please Kill Me Now, Алан Купер ↩︎