Tal vez Alexa y el Asistente de Google no deberían mejorar en entenderte
Los asistentes de voz como Google Assistant y Alexa son parte de la vida cotidiana. Están en teléfonos, computadoras portátiles, paredes y controlan hogares inteligentes. Pero pueden ser difíciles de usar, especialmente para cualquier persona que hable inglés "no estándar". Compies está tratando de solucionar ese problema, pero ¿y si eso es algo malo?
Al hacer que los asistentes de voz en los hogares inteligentes y en los teléfonos inteligentes sean más fáciles de usar, las empresas en realidad pueden estar disminuyendo la capacidad de sus usuarios para funcionar en el resto del mundo. Hay alrededor de 1350 millones de hablantes de inglés en todo el mundo, de los cuales 400 millones son ” hablantes nativos ".
Por lo tanto, es seguro asumir que aproximadamente 2/3 de los angloparlantes tienen algún grado de acento simplemente porque no es su primer idioma. Luego, con los 400 millones de personas que hablan inglés como primer idioma, tienes múltiples acentos nacionales (británico, canadiense, estadounidense, australiano, etc.). En cada país, tienes dialectos regionales, etc.
Si las empresas eligieran y perfeccionaran un solo dialecto, por ejemplo, el inglés estándar estadounidense, su producto solo sería utilizable por una pequeña fracción de hablantes de inglés. Por el contrario, si van demasiado lejos, podrían robarle a las personas lo que podría ser una herramienta muy útil para desarrollar sus habilidades de comunicación.
¿Cómo intentan las empresas tecnológicas mejorar las cosas?
Tyler Nottley / Shutterstock.com
Los asistentes de voz han estado trabajando para comprender mejor los comandos de sus usuarios desde que existen. Microsoft, Apple, Google y Amazon se encuentran entre los grandes nombres que han inyectado una tonelada de recursos en sus respectivos asistentes de voz y quieren hacerlos lo más accesibles y libres de frustraciones para la mayor cantidad de personas posible.
Esto ha implicado la contratación de personas con acentos particulares para grabar cientos de comandos de voz y conversaciones, que luego pueden usarse para enseñar dialectos de IA. Durante uno de mis meses más escasos, decidí sacar provecho de mi sexy acento del norte y pasé horas grabando cientos de palabras y frases aparentemente aleatorias para una empresa llamada Appen.
Luego, esa compañía tomó mis grabaciones y las envió a Amazon, Google, Microsoft o a quien sea que les pagara. Los fragmentos de voz se utilizan teóricamente para mejorar cualquier IA que esté desarrollando la empresa que los compró.
Algunos asistentes de voz pueden incluso ser entrenados para entender mejor la voz exacta de la persona que los usa. A diferencia de esperar a que la gran tecnología mejore su juego, esto produce resultados inmediatos y puede ayudar significativamente a la precisión de su asistente de voz. También permite que múltiples usuarios accedan a sus perfiles de hogar inteligente sin tener que cambiar manualmente.
Entonces, ¿por qué podría ser esto algo malo?
Podría salirme con la mía diciendo: “Alexer, pon una alarma para mañana a las ocho, ¿quieres?”, pero tratar de pedir canciones es donde realmente comienza la lucha. Me tomó alrededor de tres meses comunicarme con Amazon Music y algunos miles de improperios frustrados, pero ahora puedo decir "toca Happy Hour de The Housemartins" tan claramente como un lector de noticias de la BBC de la década de 1980. Todavía hay ocasiones en las que pregunto por Paul Weller y de alguna manera termino con Ella Fitzgerald, pero siempre hay espacio para mejorar.
El lado positivo de las dificultades con el acento es el hecho de que mi inglés ha mejorado. Ahora puedo comunicarme más claramente que nunca. Esto es útil porque la tecnología puede mejorar hasta el punto de que la IA en mi teléfono inteligente pueda entenderme, pero eso no me servirá de mucho cuando estoy usando dicho teléfono para hablar con otro ser humano.
Otro beneficio es que no he destrozado por completo mi acento en el proceso. Si hubiera optado por desembolsar lecciones de elocución en su lugar, podría estar recitando oraciones en pronunciación recibida. La identidad es importante; los acentos son una parte importante de la cultura y los antecedentes de una persona.
El Reino Unido, por ejemplo, tiene un acento distinto cada pocas millas. Hay un mapa que ha estado circulando por Internet durante algunos años que parece extenso pero que apenas araña la superficie. Una pequeña parte del noreste está etiquetada con acento de "Teesside", pero los nativos de cada ciudad en esa área (Middlesbrough, Hartlepool, Stockton y Billingham) hablan de manera diferente.
Ahora imagina las variaciones en un condado del tamaño de Yorkshire. La gente también tiende a identificarse con su lugar de origen y a conservar gran parte de su cultura. Los acentos son una gran parte de eso; no todo el mundo quiere sonar como Hugh Grant. Es posible que hayamos sido mimados en los últimos años, ya que muchas personas ahora están felices de sentarse y esperar que la tecnología compense sus deficiencias y, en muchos casos, hará exactamente eso. Pero a veces, encontrarse con la tecnología en el medio es más rápido y mejor a largo plazo.
Los asistentes de voz deben ser accesibles para la mayor cantidad de personas posible. Si tuviera que hablar con una pronunciación recibida perfecta antes de que Siri le diera la hora del día, uno de los éxitos más significativos de Apple sería inútil para más del 99,9% de los angloparlantes.
Incluso algo como un acento estadounidense estándar descartaría a la mayoría de los usuarios en los Estados Unidos, no importa en todo el mundo. Por lo tanto, es obvio por qué las empresas se esfuerzan tanto en enseñar a su software a comprender tantos dialectos como sea posible. Y así deberían. Pero solo deberían ir tan lejos.
Sería mejor si Apple, Google, et al. evite adoptar una mentalidad perfeccionista y, en cambio, solo apunte a un estándar que permita la accesibilidad pero que aún requiera un poco de cuidado por parte de los usuarios. En una nota personal, la falta de voluntad de Alexa para escuchar algo más que un discurso claro me obligó a pensar en cómo pronunciar las cosas.
Sin duda, mi habla es más clara que antes. Tenía que lidiar con un asistente de voz varias veces al día. No fue algo que me propuse hacer; fue un efecto secundario involuntario y muy beneficioso, y si funcionó para mí, podría funcionar para otras personas también.