Meta dio a conocer que cuenta con un sistema de inteligencia artificial capaz de realizar traducciones en hasta 100 lenguas, tanto de texto a audio, así como en todas sus combinaciones
Tener a disposición un traductor de texto de hasta 100 lenguas es algo impresionante, pero que éste sea capaz de traducir directamente de voz a voz es algo que hasta ahora solo se veía en series y películas de ciencia ficción.
Meta, liderada por Mark Zuckerberg, ha publicado un artículo en la revista Nature donde presenta un sistema de inteligencia artificial capaz de realizar traducciones en múltiples lenguas, tanto desde y hacia texto como desde y hacia audio, así como todas sus combinaciones.
Traducción automática antes de Meta
Los primeros sistemas de traducción automática estaban basados en reglas y en cálculos estadísticos previos al salto a la traducción neuronal automática en 2016. Actualmente, hay un gran poder de cómputo que se puede aprovechar para dar rienda suelta al aprendizaje de máquina (machine learning), a través de redes neuronales artificiales aplicadas a la creación de modelos lingüísticos, que son la base del ChatGPT.
Hasta ahora, la mayoría de los traductores automáticos traducen de un idioma “X” a otro “Y” usando una lengua intermedia en donde se tengan muchos datos para poder así entrenar estos sistemas; en la mayoría de ellos, la traducción pasa por el inglés como intermediario. Esto es lógico, ya que si se piensa que hay 100 lenguas y se quiere traducir de todas se necesitarían 19 mil 800 traductores (100 => 99 y viceversa). Es decir, hay que combinar todas con todas. Sin embargo, utilizando el inglés como lengua intermedia, se ahorran pasos y solo harían falta 198 (99 => inglés + inglés => 99).
El problema es que ese empleo de una lengua intermedia requiere dos pasos de traducción (desde la lengua de origen al inglés y desde el inglés hasta la lengua de destino), lo que posiblemente conlleva la comisión de muchos errores.
Traducción automática en la actualidad
La propuesta de Meta es realizar traducciones directas entre dos lenguas con el uso de un espacio de representación común. Es decir, el texto (o audio) se convierte a una serie de valores numéricos que los representan, para que así una máquina pueda procesarlos.
En este espacio multidimensional, las oraciones con significados similares estarán próximas entre sí, de tal forma que es posible medir distancias y realizar cálculos en dicho ámbito. Lo que es interesante es que el sistema de Meta es capaz de aprender cómo representar texto y audio en ese espacio independientemente del idioma en que esté.
Por lo que es posible realizar algunas tareas, como la traducción de texto a voz para algunas lenguas donde no sea posible contar con suficientes datos de entrenamiento. Es decir, si sabemos traducir de texto a texto de una lengua “X” a otra “Y”, pero no contamos con ejemplos de traducciones de texto del idioma “X” a voz en el idioma “Y”, podremos utilizar el espacio de representación para sortear el problema.
Aprendizaje de 0 ejemplos
Esto se consigue con el uso de una técnica de aprendizaje llamada zero-shot, algo así como “aprendizaje de cero ejemplos”. Dado que tanto el texto como el audio están representados en el mismo espacio multidimensional, es posible dar el salto entre uno y otro.
Alguien podría objetar que el paso de texto a voz sí es algo resuelto y que existen muchos programas que son capaces de hacer un trabajo aceptable. Sin embargo, si quiero traducir de voz a voz y descompongo el problema en pasos (voz en la lengua X => texto en la lengua X => texto en la lengua Y => voz en la lengua Y), el sistema resultante probablemente tendrá mucho retardo y termine siendo inutilizable en un caso real.
Futuro de la traducción automática
Pese a los avances, la traducción automática no se puede considerar un problema resuelto. Hay muchos elementos que no se están considerando, como las inflexiones vocales u otros componentes emocionales que pueden afectar la precisión de la traducción final, especialmente si se utiliza una traducción de voz a voz.
También es cierto que puede haber problemas a la hora de determinar el género gramatical de algunas palabras –como, por ejemplo, profesor o profesora, que en inglés no tiene género y en castellano sí–, ya que existe una sobregeneralización hacia un género específico.
Lo más complejo de resolver es la falta de datos de calidad para poder entrenar estos sistemas de inteligencia artificial tan avanzados. Por eso, la traducción entre idiomas minoritarios (como el zulú o el nyanja) es aún un gran desafío. Los traductores automáticos que vendrán en el futuro deberán tener todo esto en cuenta y ser además rápidos y energéticamente eficientes para poder incorporarlos a nuestros dispositivos móviles.