Можливо, Alexa і Google Assistant не повинні краще розуміти вас
Голосові помічники, такі як Google Assistant і Alexa, є частиною повсякденного життя. Вони є на телефонах, ноутбуках, стінах і керують розумними будинками. Але їх може бути важко використовувати, особливо для тих, хто говорить «нестандартною» англійською. Компанії намагаються вирішити цю проблему, але що, якщо це погано?
Роблячи голосових помічників у розумних будинках і на смартфонах простішими у використанні, компанії можуть фактично зменшити здатність своїх користувачів функціонувати в широкому світі. У всьому світі налічується близько 1,35 мільярда людей, які говорять англійською, з яких 400 мільйонів є «носіями мови ».
Отже, можна з упевненістю припустити, що приблизно 2/3 людей, які говорять англійською, мають певний ступінь акценту лише тому, що це не їхня рідна мова. Тоді з 400 мільйонами людей, які розмовляють англійською як рідною мовою, у вас є кілька національних акцентів (британський, канадський, американський, австралійський тощо). У кожній країні є регіональні діалекти тощо.
Якби компанії вибрали й удосконалили один діалект, скажімо, американський стандартний англійський, їхній продукт міг би використовувати лише невелика частина англомовних. І навпаки, якщо вони зайдуть занадто далеко, вони можуть позбавити людей того, що може бути дуже корисним інструментом для розвитку їхніх комунікативних навичок.
Як технічні компанії намагаються покращити ситуацію?
Тайлер Ноттлі / Shutterstock.com
Голосові помічники працюють над тим, щоб краще розуміти команди своїх користувачів протягом усього часу їх існування. Microsoft, Apple, Google і Amazon є одними з відомих імен, які вклали масу ресурсів у свої відповідні голосові помічники і хочуть зробити їх максимально доступними та без розчарувань для якомога більшої кількості людей.
Це передбачало найм людей з особливим акцентом для запису сотень голосових команд і розмов, які потім можна використовувати для навчання діалектам ШІ. Протягом одного з моїх більш худих місяців я вирішив заробити на своєму сексуальному північному акценті і провів години, записуючи сотні, здавалося б, випадкових слів і фраз для компанії під назвою Appen.
Потім ця компанія забрала мої записи і відправила їх до Amazon, Google, Microsoft чи того, хто їх оплачував. Голосові фрагменти потім теоретично використовуються для покращення ШІ, який розробляє компанія, яка їх купила.
Деякі голосові помічники можна навіть навчити краще розуміти точний голос того, хто його використовує. На відміну від очікування, коли великі технології підвищать свою гру, це дає миттєві результати і може значно підвищити точність вашого голосового помічника. Це також дозволяє кільком користувачам отримувати доступ до своїх профілів розумного дому без необхідності перемикатися вручну.
Отже, чому це може бути погано?
Я міг би зійти з рук, сказавши: «Алексер, серруз будильник на вісім годин завтра буде», але спроба запитати пісні – це те, де справді починається боротьба. Знадобилося близько трьох місяців спілкування з Amazon Music і кілька тисяч розчарованих лайливих лайок, але тепер я можу сказати «грати Happy Hour від The Housemartins» так само чітко, як читач новин BBC 1980-х років. Досі бувають випадки, коли я прошу Пола Веллера і якимось чином закінчую з Еллою Фіцджеральд, але завжди є куди вдосконалюватися.
Срібна підкладка, яка прийшла з боротьбою з акцентом, полягає в тому, що моя англійська покращилася. Тепер я можу спілкуватися чіткіше, ніж будь-коли раніше. Це корисно, оскільки технології можуть покращитися до такої міри, що ШІ на моєму смартфоні зможе мене зрозуміти, але це не принесе мені особливої користі, коли я використовую цей телефон для спілкування з іншою людиною.
Ще одна перевага полягає в тому, що я не повністю розбив свій акцент у процесі. Якби я замість цього вирішив витратити гроші на уроки ораторського мовлення, я міг би тріпотіти реченнями в отриманій вимові. Ідентичність важлива; акценти є важливою частиною чиєїсь культури та походження.
Сполучене Королівство, наприклад, має чіткий акцент кожні кілька миль. Є карта, яка літає в Інтернеті протягом кількох років, яка виглядає великою, але все ще ледь подряпає поверхню. Невелика частина північного сходу позначена як «тіссайдський» акцент, але жителі кожного міста в цьому районі (Міддлсбро, Хартлпул, Стоктон і Біллінгем) розмовляють по-різному.
А тепер уявіть різницю в графстві розміром з Йоркшир. Люди також схильні ідентифікувати себе звідки вони і зберігають багато своєї культури. Акценти є великою частиною цього; не всі хочуть звучати як Х’ю Грант. Ми, можливо, були розпещені останніми роками, оскільки багато людей тепер із задоволенням сидіть склавши руки і чекають, поки технологія заповнить їхні недоліки — і в багатьох випадках вона зробить саме це. Але іноді зустрічатися з технікою в середині і швидше, і краще в довгостроковій перспективі.
Голосові помічники мають бути доступними для якомога більшої кількості людей. Якби вам довелося говорити з ідеальною вимовою, перш ніж Siri дасть вам час доби, один з найбільш значущих успіхів Apple був би марним для понад 99,9% англомовних.
Навіть щось на кшталт стандартного американського акценту виключало б більшість користувачів у Сполучених Штатах, не важаючи у всьому світі. Отже, очевидно, чому компанії докладають багато зусиль, щоб навчити своє програмне забезпечення розуміти якомога більше діалектів. І так вони повинні. Але вони повинні зайти лише так далеко.
Було б краще, якщо Apple, Google та ін. уникайте перфекціоністської ментальності і натомість просто прагніть до стандарту, який забезпечує доступність, але все одно вимагає від користувачів трохи уваги. Особисто, небажання Алекси слухати що-небудь, крім чіткої мови, змусило мене задуматися про те, як я вимовляю речі.
Моя мова, безсумнівно, зрозуміліша, ніж раніше, мені доводилося мати справу з голосовим помічником кілька разів на день. Це не було те, що я збирався зробити; це був ненавмисний і дуже корисний побічний ефект — і якби це спрацювало на мене, то могло б спрацювати й іншим людям.