lunes, 17 de agosto de 2009

La voz, un misterio para la tecnología


Es de esperar que los sistemas computarizados que actúan por reconocimiento de la voz humana nos simplifiquen el trabajo o nos resuelvan problemas cotidianos, como cuando necesitamos pedir la reparación de un servicio o consultar la guía telefónica.
Sin embargo, en estos treinta años de investigaciones y desarrollos, no todas las aplicaciones dieron los resultados que esperaban los expertos. La lista de mejoras pendientes incluyen, por ejemplo, la posibilidad de que un sistema capte automáticamente el concepto de una palabra dicha en un determinado contexto. Sin embargo, no es sencillo. Por ejemplo, en la consulta a un sistema de venta telefónica de pasajes aéreos ("Quisiera un vuelo a Rosario por la tarde"), exige definir qué horarios comprende la tarde en cada idioma y país.
"Alcanzamos un nivel de éxito en el que, por ejemplo, la conversión de texto en voz es bastante comprensible cuando se usa poco tiempo, ya que por ahora sería un castigo tener que escuchar un texto largo, leído con voces sintéticas. Necesitamos mejorar la naturaleza de la voz, de lo que no sabemos demasiado porque era algo que en años anteriores no nos parecía tan importante. Hoy, contamos con la capacidad de personalizar esas voces", dijo el doctor Richard Stern, director asociado del Instituto de Redes de la Información del Departamento de Ingeniería Electrónica y Computacional de la Universidad Carnegie Mellon, en Pittsburgh, Estados Unidos.
Prestigioso por sus trabajos sobre el reconocimiento automatizado del lenguaje y la percepción auditiva, Stern repasó ante alumnos de la Facultad de Ingeniería de la UBA los aciertos tecnológicos logrados y los desafíos para mejorarlos.
Hasta ahora, las aplicaciones disponibles incluyen el dictado (con vocabulario y gramática que se adaptan al idioma del usuario); los comandos por voz, una función disponible en algunos automóviles y en sistemas operativos para computadoras; el acceso a la información, como el que se puede obtener a través de una llamada telefónica; el ingreso de datos y la traducción automatizada.
-Parece que cuanto más tratan de acercarse a la forma en que el cerebro procesa el lenguaje, más se alejan.
-La verdad es que, hasta ahora, ganaron los sistemas basados sólo en las estadísticas léxicas. Lo mejor sería obtener una representación de cómo el sistema auditivo procesa el leguaje; es decir, un modelo automatizado de la audición y la pronunciación. Tenemos muchos datos de la fisiología y la percepción del habla, pero es un problema difícil de resolver. Eso mejorará sólo en los próximos 10 o 20 años.
Fabiola Czubaj
lanacion.com

No hay comentarios: