¿Por qué Siri y Google Voice a veces no nos entienden?

Los sistemas de reconocimiento de voz son cada vez más sofisticados, pero están lejos de ser perfectos y de 'comportarse' como humanos

voz02.jpg
Siri, el software de reconocimiento de voz de Apple, fue el primero en el mercado para el uso cotidiano de usuarios de teléfonos inteligentes. (Crédito: Marta Franco/CNET )

¿Siri no te entiende? No te agobies; no estás solo.

¿Cuántas veces has hecho una pregunta o le pides a Siri, Google Voice o S-Voice que haga algo, pero no entienden tu instrucción? Cuando se lo dices en inglés, piensas que no te entiende por tu acento, pero luego si hablas en español, tampoco te entiende, especialmente si son palabras en inglés. Tan es así que incluso hace poco los graciosos personajes de Los Simpson se burlaron de la asistente personal virtual.

Pero ¿por qué el software de reconocimiento de voz como el de Apple, Google y otras compañías no siempre funciona?

“Es como construir castillos en el cielo”, dijo Pedro Moreno, investigador y científico principal en el equipo de reconocimiento de voz de Google, a CNET en Español desde sus oficinas en Nueva York. “Y la razón es porque hay entre 5,000 y 6,000 idiomas hablados en el planeta, pero solamente 300 tienen más de un millón de personas. Si cubrimos esas 300 lenguas, tendríamos casi un 99 por ciento de la población”.

Google tiene mucho terreno que cubrir, pues su software de reconocimiento de voz, Google Now, solamente entiende 48 idiomas – algunos de poblaciones con menos de un millón de personas – entre ellos catalán, vasco y gallego.

Si no cuentan con un idioma en particular, Google colecciona su corpora o cuerpo de archivos mandando equipos – dirigidos por Moreno – a diferentes países. Según explica Moreno, Google colecciona audio de entre 300 a 400 voluntarios — niños, mujeres y hombres de todas las edades quienes usan una aplicación en Android que les avisa cuando deben leer ciertas frases. Los voluntarios firman acuerdos de confidencialidad.

Nace Siri

Mucho tiempo antes de Google, otras compañías e instituciones ya se habían enfrentado al reto de hacer que las maquinas nos escuchen, reconozcan y entiendan.

El software de reconocimiento de voz ha estado en desarrollo por décadas. En 1983, SRI International, en Menlo Park, California, recibió una subvención de la Fundación Nacional de Ciencias – una agencia independiente del gobierno estadounidense – que impulsó la creación del Laboratorio de Investigación de la Tecnología de Voz (Speech Technology and Research Laboratory, STAR por sus siglas en inglés). Después, el apoyo continuó a través de la Agencia de Proyectos de Investigación Avanzada para la Defensa (DARPA, por sus siglas en inglés).

voz01.jpg
La tecnología de reconocimiento de voz Google Voice funciona en móviles Android, y la tecnología Siri en teléfonos de Apple. (Crédito: Marta Franco/CNET)
 Con esa ayuda, SRI desarrolló compañías como Nuance Communications y Siri, Inc., dos emprendimientos comerciales de SRI Ventures – parte del Instituto SRI – que SRI independizó y que luego fueron adquiridas. (Nuance por ScanSoft en 2006 por US$221 millones y Siri por Apple en 2010 por US$220 millones). Parte de la tecnología de reconocimiento de voz que usa Siri viene de Nuance, confirmó su jefe ejecutivo Paul Ricci este año.

Fue con la introducción del iPhone 3GS en junio del 2009 que este tipo de software se hizo disponible para uso cotidiano de los usuarios de teléfonos inteligentes a través de comandos de voz integrados en el móvil que le daban al usuario la habilidad de dar órdenes por voz sin tener que usar el teclado.

Desde entonces se han vendido millones de móviles inteligentes con software como Google Now, Siri y S-Voice de Samsung, pero muchos siguen dudando que estos programas funcionen bien. Los expertos insisten que el software es inteligente y está programado para continuar mejorando – es decir aprendiendo – de nosotros mismos cuanto más lo usemos. Y si tú no tienes paciencia, compañías como Google y Nuance te dan la mano coleccionando miles de grabaciones de audio y millones de palabras para que tu asistente virtual personal (VPA por sus siglas en inglés) sea un poco más ideal.

Play

Acostúmbrate a mi voz

Pero ¿cómo se llega al punto donde una máquina puede aprender a reconocer tu voz?

“A cierto nivel, [el software] imita cómo funciona el cerebro”, dijo Moreno.

“Piensa en esto como si [la máquina] fuera un humano. Si [el humano] pasa tiempo en el estado de Louisiana, aunque se haya criado en el Bronx, Nueva York, puede que le tome algunas semanas – tal vez menos – para empezar a entender cómo hablan”, dice Moreno haciendo referencia al fuerte acento de los habitantes de esta ciudad en el sur de los Estados Unidos. “Es cuestión de exponer la red neuronal artificial a todos estos acentos diferentes”.

La red neuronal artificial – una tecnología parte del área de computación de la inteligencia artificial – imita la red neuronal del cerebro humano por la manera que aprende. En el caso del reconocimiento de voz, explica Moreno, se programa el software para recibir las ondas fonéticas de la voz de un individuo, procesar dicha información y convertirla en texto. Después de eso se crean los parámetros de la red neuronal artificial para comenzar a predecir el texto que debería escribir según lo que escuchó. Google usa este proceso.

voz08.jpg
Google manda equipos a todo el mundo para grabar las voces que luego usa para mejorar Google Voice. (Crédito: Marta Franco/CNET)

Para crear este tipo de software es necesario juntar a ingenieros eléctricos, lingüistas y científicos en computación, quienes van construyendo modelos o maneras de aprendizaje – uno de lenguaje y uno acústico – para que el software de una máquina aprenda a reconocer lo que dice una persona.

En el modelo de idiomas, el software aprende la probabilidad de que ciertas palabras sigan a otras. Por ejemplo, cuando uno dice “¿Hola, cómo estás …” es muy probable que la siguiente palabra sea “tú?” En Google, explica Moreno – un madrileño con casi 25 años en EE.UU. – una de las bases de datos que ellos usan para entrenar al software viene de las búsquedas en su buscador Google.com.

“También usamos sitios web, documentos y noticias [en línea]; podemos extraer esos datos para crear un modelo de lenguaje que explique la probabilidad que de ciertas palabra sigan a otras”, explica.

Del banco al consultorio

El argentino Horacio Franco, jefe de estrategia de la tecnología de voz y del laboratorio de investigación en SRI, explicó que la máquina que procesa estas distintas palabras "aprende" mejor según el contexto. Por ejemplo, dice, si un banco quiere ofrecer una asistente virtual (VPA) las palabras que aprendería el software serían distintas a las que tendría que "aprender" un consultorio médico. Esas distintas categorías se conocen como "dominios". También hay dominios para transacciones en bolsa de valores, en escuelas para el aprendizaje de idiomas, en agencias de viajes para reservaciones y hasta para pedir de productos, entre otros.

En el área de finanzas un ejemplo actual es el del banco español BBVA, que trabajó con SRI en el desarrollo de una VPA que, según ellos, es “capaz de crear un auténtico diálogo con el cliente y comprender el contexto de su conversación con él”. Dicha VPA escucha al cliente durante sus transacciones con el banco y después se comunica con el área apropiada de la institución para asistir al cliente.

Pero en todas estás área cómo suena una persona es crítico de entender bien y por eso existe ek modelo acústico.

En el modelo acústico, el software aprende a analizar los rasgos fonéticos – o fonemas – de las palabras, por ejemplo la palabra “hola” seria “ho”, “l” y “a” que tiene tres fonemas. Después de hacer este análisis, se usan tablas de estadísticas o algorítmicos para instruir al software a como cambiar estos sonidos a texto.

voz07.jpg
Google Voice entiende 48 idiomas. (Crédito: Marta Franco/CNET)
Para que el software aprenda un idioma – y reconozca los distintos acentos – las compañías tienen que coleccionar archivos de grabaciones. Instituciones como SRI coleccionan audio al pedido de sus clientes; Nuance, por su parte, tiene años de archivos almacenados. Sin embargo, si una empresa en esta área busca archivos de audio para crear un cuerpo de datos, los puede comprar a través de organizaciones como el Consorcio de Datos Lingüísticos o la Asociación Investigativa de Lenguas Europeas. Un ejemplo de un archivo de audio en español puede costar US$2,500 y la transcripción US$1,500.

Según Moreno, Google transcribe casi 3,000 horas de audio que colecciona de sus equipos que van a grabar e incorpora ese audio y texto dentro de su red neuronal artificial y, a lo largo de dos a tres semanas de procesamiento con el algoritmo, la red neuronal artificial del software comienza a predecir el audio.

“Nuestros sistemas se auto-entrenan constantemente”, explica Moreno. “Pero necesitamos un base inicial de datos para comenzar el proceso”.

Para que el software entienda acentos, Google desarrolla un sistema especial para cada localidad. En el caso del español, tienen un modelo acústico para el castellano ibérico, uno para México y América Central; otro para Argentina, Chile y Uruguay, y otro más para el resto de los países latinoamericanos. Google tiene cinco en inglés.

CNET en Español envió una serie de preguntas a Apple, pero al cierre de edición, la compañía no había respondido.

Cuando los robots nos alcancen

“La tecnología no es perfecta,” reconoce Franco, de SRI. “Hay factores que pueden producir errores” como la tecnología de los micrófonos en los dispositivos que no cancelan el ruido ambiental.

Aun así, dice, la tecnología en los dispositivos mejora cada día, porque ahora muchos de los fabricantes instalan micrófonos de múltiples matrices, que reconocen el origen del sonido más cercano y le dan prioridad. Al hacer eso, el micrófono captura mejor la voz principal y puede cancelar ruido innecesario. Otro avance es que ahora el sonido se transmite – sin distorsión – vía canales digitales dedicados a datos.

voz04.jpg
El reconocimiento de voz se usa en diferentes contextos, como al conducir. (Crédito: Marta Franco/CNET)
La calidad de los micrófonos es algo que Google también enfrenta en su marcha hacia incorporar 300 idiomas. Según Moreno, todos los días, las máquinas de Google procesan 10 años de grabaciones de audio.

“Eso es una enorme cantidad de datos. Y nuestro software está constantemente aprendiendo y adaptándose a cómo la gente lo usa, a los diferentes teléfonos — porque cada teléfono en producción lanzado por nuestros socios tiene hardware diferente, y micrófonos diferentes, pues tenemos que adaptarnos”.

Vlad Sejnoha, jefe de tecnología en Nuance, reconoce que si el software no entiende la señal de voz, no va a entender lo que dice un usuario. Por ejemplo, para mejorar el asunto de los micrófonos, los técnicos de Nuance trabajan con los fabricantes de automóviles para decidir dónde es mejor poner un micrófono.

“Estamos muy conscientes que la voz es una manera muy singular de controlar algunos de los servicios de un auto”, dice Sejnoha. “La industria automotriz es muy activa en esta área”.

Pero, al fin y al cabo los humanos no hablamos como máquinas o como robots. No decimos las cosas igual siempre. Procesar como hablamos naturalmente es algo que la inteligencia artificial todavía no ha perfeccionado. Y he ahí una de las razones por la cual Siri o Google Voice no te van a entender cuando tú speak en Spanglish.

Actualmente, Google solo reconoce voz en un idioma a la vez, pero Moreno sabe que en la India, en algunos países de África y en EE.UU. las personas bilingües cambian de un idioma a otro constantemente 

“Ahora estamos buscando modelos para todo, pero mientras tanto vamos a explorar si hay una mejor manera de tener dos sistemas y combinar sus dinámicas”, explica. “Es un pequeño problema para nosotros”.

Casi el futuro

Imagínate que un 99 por ciento de la población pueda hablar con sus dispositivo y esos dispositivos entiendan y reaccionen a lo que dicen.

 Además de la obvias ventajas del reconocimiento de voz – para pedir direcciones sin usar las manos, o dictar tus mensajes – las compañías ven oportunidades de ganancias en áreas como la informática de vestir, las industrias médica o financiera o los televisores inteligentes, entre otras.

El reconocimiento de voz puede más "fluidamente abrir paso al comercio”, dice Aaron Sheedy, vicepresidente de soluciones móviles en Nuance Communications, porque la voz de un individuo le puede proveer la capacidad de acceder sus diferentes cuentas.

“Es una manera fácil de entrar a un sistema de pago: una clave biométrica con otro tipo de autenticación de perfil”, expuso Sheedy.

Falta todavía tiempo para eso, pero el aumento en el uso es impresionante, dijo Sheedy. Según cifras de Nuance, en 2013 se realizaron 10,000 millones de transacciones de voz por dispositivos, comparado con cero hace apenas cuatro años.

Nuance también compartió cifras del uso en varios dominios vía dispositivos con la plataforma Android. Por ejemplo, un 58.1 por ciento de los usuarios usaron el reconocimiento de voz para buscar contenido por Internet y 13.2 por ciento usó su móvil para hacer una llamada. Un 8.2 por ciento mandó un mensaje de texto por voz.

Sheedy expuso que Nuance invierte mucho en reconocimiento de voz para automóviles y videojuegos. Un ejemplo fue que durante la conferencia de desarrolladores de Samsung en San Francisco en Octubre, Sheedy demostró como un robot hecho por la compañía Legos –con una computadora interna que tiene software de Nuance– puede ser controlada vía un móvil usando una voz. Ahora el Xbox One de Microsoft se podrá controlar con la voz.

Pero además, también dijo Sheedy que la “voz será una entrada principal con la llegada de la informática de vestir”. Glass, las gafas digitales de Google, toman fotos, video y navegan el Internet con base en comandos de voz, aunque al menos por el momento y según un portavoz de Google, Glass solamente se comunican en inglés.

voz05.jpg
La calidad de respuesta de Siri y de Google Voice mejoran con el uso. (Crédito: Marta Franco/CNET)
Y pronto en el hogar inteligente, podrás encender y apagar tus electrodomésticos con la voz. Por ejemplo ivee, un despertador inteligente, responde cuando le saludas y pide instrucciones. Siempre está atento – no hay que encenderlo – y tiene micrófonos que procesan tus palabras de tal manera que filtra el ruido ambiental. El dispositivo aún no reconoce español, pero es parte de los planes de la empresa, explica Jonathon Nostrant, CEO de ivee. “Piensa en ivee como si fuera un iPhone [o una computadora] que será ajustable y personalizable con el tiempo”.

Hace décadas, cuando SRI y otras instituciones investigaban cómo hacer que las máquinas reconocieron una voz, sus primeros proyectos fueron en el área del servicio al cliente por teléfono y por red analógica.

Hoy puede hacerse muchas cosas. Pero, sin duda, Siri está lejos de emular a un ser humano.

“Ahora podemos extraer lengua natural de miles de palabras”, dijo Sejnoha, de Nuance. “Pero tener una conversación con un sistema como si fuese humano, eso aún está a varios años de distancia”.


Autor

Claudia Cruz es reportera de CNET en español. Nació y creció en la Ciudad de Nueva York y es hija de padres dominicanos. Claudia tiene una maestría en periodismo de emprendimiento de la Universidad de la Ciudad de Nueva York y es abogada por la Universidad Estatal de Ohio. Recientemente ejerció como editora de Patch en Mountain View y Palo Alto, en Silicon Valley, donde actualmente vive. A Claudia le gusta el béisbol, la yoga y hacer cata en las abundantes microcervecerias de California.

 

Comentarios

Conversation powered by Livefyre

No te lo pierdas
Productos Destacados
CONÉCTATE CON CNET en Español
CNET Insider Edición en español Los miembros de CNET en español reciben anuncios sobre nuevos servicios, funciones y otros beneficios que ofrece CNET.