читайте также
По мере того, как «умные ассистенты» и голосовые интерфейсы становятся частью нашей повседневной реальности, мы начинаем делиться новой формой наших личных данных — речью. И это касается не только тех слов, которые мы произносим вслух.
Речь лежит в основе наших социальных взаимодействий, и мы поневоле многое сообщаем о себе, когда говорим. Когда мы слышим голос, мы сразу же пытаемся определить акцент и интонацию и делаем выводы относительно возраста, образования, личностных черт и прочего. Так мы пытаемся помочь себе подобрать лучшую стратегию взаимодействия с говорящим.
Но что происходит, когда анализировать человеческую речь берется машина? Технологические гиганты не отвечают однозначно на вопрос о том, что конкретно и зачем они планируют определять в наших голосах. Но у Amazon уже есть патент, в котором перечислен список черт, который компания может начать определять, включая идентичность («гендер, возраст, этническое происхождение и т.д.»), состояние здоровья («боль в горле, тошнота, и т.д.») и чувства («радость, грусть, усталость, сонливость, взволнованность и т.д.»).
Меня это беспокоит, и вас это тоже должно беспокоить, поскольку алгоритмы несовершенны. Голос особенно сложно поддается анализу, поскольку сигналы, которые мы подаем, зачастую противоречивы и двусмысленны. Более того, даже сделанные человеком выводы о голосе искажаются стереотипами. Возьмем, к примеру, попытку определить сексуальную ориентацию.
Существует стиль разговора с повышенным тоном и понижающимися интонациями, который часто считывается людьми как интонация мужчины-гея. Но некоторые гетеросексуалы говорят так же, в то время как многие гомосексуалы, напротив, говорят иначе, что может приводить к путанице. Научные эксперименты показывают, что человеческий слуховой «гей-радар» оказывается прав только в 60% случаев. Исследования с машинами, которые пытались определить сексуальную ориентацию по фотографиям лиц, показали успешные результаты в 70% случаев. Звучит впечатляюще? Но не для меня, поскольку это означает, что в 30% случаев машины ошиблись. И я предполагаю, что процент успешного выполнения задачи в случае с распознаванием голоса будет еще ниже, поскольку то, как мы говорим, зависит от того, с кем мы говорим. У нас очень гибкая голосовая анатомия, что позволяет нам быть словесными хамелеонами, подсознательно меняя наш голос в соответствии с человеком, с которым мы говорим.
Нам также стоит обеспокоиться и относительно сбора компаниями ненадежной информации и по другим чертам, перечисленным в патенте Amazon, вроде гендера и этнической принадлежности. Образцы речи, используемые для машинного обучения, впитают в себя социальные предрассудки. Мы уже видели примеры в похожих технологиях. Наберите в Google Translate по-турецки «O bir hem?ire. O bir doctor», и вы получите «Она медсестра» и «Он доктор». Несмотря на то, что в турецком языке «о» является гендерно-нейтральным местоимением третьего лица, из данных, используемых для обучения переводящего алгоритма, возникает предположение о том, что доктор — мужчина, а медсестра — женщина, которое отображает гендерные предубеждения в медицинской сфере. Эта проблема также относится и к расовым вопросам. Так, одно исследование показало, что типичные данные, используемые для машинного обучения, ставят афроамериканские имена рядом с отражающими неприятные явления словами вроде «ненависть», «бедность», «некрасивый», в то время как имена, типичные для американцев европейского происхождения, часто стоят рядом с приятными словами вроде «любовь», «удачливый», «счастливый».
Технологические корпорации хотят, чтобы их голосовые девайсы работали все лучше и лучше, и это предполагает понимание того, как люди говорят. В конце концов, смысл такой простой фразы, как «я в порядке», полностью меняется, если поменять голос с нейтрального на разозленный. Но где будет пролегать граница дозволенного и кто ее определит? К примеру, голосовой помощник, который определяет гнев, может потенциально многое понять относительно того, как обстоят дела в вашем браке, просто слушая ваш голос. Будет ли Google на основе этих данных рекомендовать вам рекламу консультаций у семейного психолога? Я не говорю о том, что кто-то собирается делать это специально. Но проблема со всеми этими сложными системами машинного обучения состоит в том, что вопросы обычно возникают непреднамеренным образом. К числу возможных ошибок со стороны ИИ также можно отнести неверное определение акцента, из-за чего программа может предположить, что говорящий менее образован, поскольку данные, на основе которых происходит машинное обучение, воспроизводят социальные стереотипы. Это может заставить умную колонку выдавать слишком простые ответы для людей с выраженным акцентом. Технологическим компаниям стоит хорошенько подумать о том, как не допустить влияние подобных предрассудков на работу их систем. Уже есть тревожные примеры использования голосового анализа для телефонных линий, предназначенных лицам, подающим документы на государственные пособия, для выявления ложных утверждений. Британское правительство потратило ?2,4 млн на голосовой детектор лжи, который по всем научным метрикам, просто не мог работать.
И, наконец, последняя проблема состоит в том, что многие люди ведут себя все более открыто рядом с этими девайсами. По данным Amazon, многие люди устраивают с Alexa реальные беседы и часто даже рассказывают девайсу о своих чувствах. Доходит и до выражения симпатий и фраз вроде «Alexa, я люблю тебя». Речь делает девайс субъектом, из-за чего мы более склонны антропоморфизировать технологию и охотнее открываем ей конфиденциальную информацию. Скорее всего, крупная утечка голосовой информации — лишь дело времени: рано или поздно она случится. По этой причине специалисты уже начали разрабатывать алгоритмы по фильтрации конфиденциальной информации. Например, можно настроить свой девайс так, чтобы он глушил микрофон вашей умной колонки, когда вы упоминаете название своего банка, чтобы не допустить случайной утечки открывающих доступ к вашему аккаунту данных, или же когда вы упоминаете слова сексуального содержания.
Что же думают пользователи относительно своей конфиденциальности при использовании умных помощников? Единственное опубликованное исследование, которое я смог найти, было выполнено Мичиганским университетом. Оно показывает, что владельцы устройств не особо обеспокоены перспективами передачи большего количества данных Google и Amazon. «Меня это действительно настораживает, — объясняет один из авторов исследования, Флориан Шауб. — Эти технологии мало-помалу разрушают человеческие представления о приватности. Существующие меры по контролю конфиденциальности частной информации попросту не отвечают потребностям людей». Большинство участников исследования даже не представляли, что данные по ним анализируются для формирования таргетированной рекламы. Когда же это становилось им известно, такое использование их голосовых команд не вызывало у них одобрения.
Но пользователи также могут злоупотреблять технологиями для своих собственных целей. В исследовании Мичиганского университета один человек использовал аудио-журналы Amazon Echo, чтобы выяснить, что делали с устройством сиделки. Также эти девайсы могут в будущем предоставить новый способы убеждения людей. Если вы думаете, что ваша стиральная машина нуждается в замене, а ваш супруг с этим не согласен, вы можете совершить голосовой поиск возможных моделей рядом с умной колонкой, и бессчетное число рекламных объявлений по новым моделям начнет бомбардировать вашего мужа.
Бизнес давно привык быть осторожным с информацией в электронных письмах на случай, если она попадет не в те руки. Нам стоит выработать похожий подход и в отношении того, какие сведения мы сообщаем, разговаривая рядом с подключенными к интернету устройствами. Единственное по-настоящему безопасное и не представляющее угрозы при разговоре устройство — это выключенное устройство.
Об авторе. Тревор Кокс (Trevor Cox) — профессор Солфордского университета (Великобритания), специализируется на акустической инженерии. Автор книги «Now You’re Talking: Human Conversation from the Neanderthals to Artificial Intelligence».