Meta Revoluciona la Traducción Automática con NLLB-200
Meta presentó en 2022 un revolucionario traductor automático capaz de desenvolverse en 200 idiomas. Las traducciones se realizan en tiempo real y con una efectividad muy por encima de la media. “Para dar una idea de la escala del programa, el modelo de 200 idiomas analiza más de 50.000 millones de parámetros. Lo hemos entrenado usando el Research SuperCluster, uno de los superordenadores más rápidos del mundo”, dijo el consejero delegado y fundador de la empresa, Mark Zuckerberg, cuando se presentó.
Detrás de este pionero desarrollo está Marta Costa-Jussà (Sabadell, 42 años), investigadora del equipo FAIR (Facebook Artificial Intelligence Research), uno de los laboratorios más potentes del mundo en inteligencia artificial (IA). Costa-Jussà forma parte de la treintena de científicos —entre los que hay ingenieros como ella, pero también lingüistas, científicos de datos, sociólogos o expertos en ética— que ha desarrollado este modelo llamado NLLB-200 (acrónimo de No Language Left Behind: en inglés, ningún idioma se queda atrás). La catalana es una de las coordinadoras de un artículo firmado recientemente junto a sus colegas en la revista Nature en el que desgranan los detalles de su herramienta.
Costa-Jussà trabaja en FAIR desde 2022. Ingeniera de Telecomunicaciones por la Universitat Politècnica de Catalunya (UPC), se doctoró en ese mismo centro y luego hizo estancias postdoctorales en París, São Paulo, Ciudad de México, Singapur o Edimburgo. Siempre en torno a su tema: la traducción automática. Cuando se estableció en Barcelona, donde había conseguido por fin plaza fija en la UPC, recibió un email de Meta. La querían para su proyecto NLLB-200. “Me pilló justo cuando había conseguido estar donde siempre había querido estar, pero tras hacer las entrevistas, no lo dudé: el equipo era buenísimo y el proyecto, muy interesante”, explica por videollamada desde París, donde vive desde entonces. Además de investigar, Costa-Jussà disfruta contándole cuentos a sus tres hijos, lo que la llevó a publicar el año pasado una novela juvenil en la que mezcla aventuras y divulgación sobre IA.
Pregunta. ¿Qué tiene de especial su traductor comparado con otros?
Respuesta. Hemos desarrollado el primer sistema de traducción en tiempo real que funciona en 200 lenguas. La gracia es que se pueden hacer traducciones entre cualquier pareja de lenguas de esas 200, sin tener que pasar por el inglés, como suele suceder. Y la calidad de la traducción es la mejor que se puede obtener actualmente. Todavía hoy, después de dos años, nuestro sistema se usa como referencia en muchos artículos científicos.
P. ¿Cómo lo han conseguido?
R. De forma resumida, el sistema funciona tras procesar traducciones paralelas. Me explico. Tienes documentos en muchas parejas de idiomas, alineados a nivel de frase. Por ejemplo, tengo una frase en catalán y su correspondiente traducción en inglés o mandarín. Cuando tienes una gran cantidad de esos textos, los insertas en un modelo neuronal de aprendizaje profundo y el algoritmo extrae patrones. A partir de ahí, el sistema aprende a generalizar. Entonces se produce un proceso extraordinario: emerge una especie de conocimiento tras haber visto tantos datos, y eso permite, por ejemplo, que se hagan traducciones directas de catalán a yoruba, aunque no tengamos textos paralelos en esos dos idiomas en particular, y, por tanto, el sistema no pueda haber aprendido esa traducción. Eso es posible porque la herramienta aprende a generalizar entre parejas de textos y a extrapolarlo a otras casuísticas de las que no tiene ejemplos.
P. ¿Esto cómo se hace?
R. Con muchos datos, un gran poder computacional y un algoritmo matemático capaz de compaginar todo esto. Básicamente, tienes una frase de entrada, de la que haces una representación matemática. Transformas las frases en vectores matemáticos, y esos vectores matemáticos se transforman en frases de salida. Todo pasa por un espacio altamente multidimensional. Evidentemente, necesitas un gran poder computacional porque, para que el sistema pueda generalizar, necesita millones y millones de frases paralelas. Nuestra aportación original ha sido desarrollar una herramienta capaz de digerir todos esos ejemplos.
P. Dice que necesitan millones de frases paralelas. ¿Pero qué pasa cuando no hay corpus tan extensos, como en swahili u otras lenguas poco digitalizadas?
R. Hemos rastreado internet y hemos desarrollado un algoritmo que es capaz de paralelizar textos, de encontrar entre los datos abiertos de internet qué textos son la traducción de otros. Esa fase de extracción de datos es automática. Aparte de eso, como dices, hay parejas de idiomas para los que no tenemos corpus, y lo hemos tenido que desarrollar nosotros: hemos pagado a traductores para que traduzcan ciertas frases para ciertos idiomas.
P. ¿De dónde han extraído el corpus lingüístico? ¿Han recurrido solo a fuentes abiertas?
R. Una de las cosas que me gustan de FAIR es que nuestra investigación es abierta, y puedes ver nuestras fuentes. Está especificado en el artículo y en nuestro repositorio: Parlamento Europeo, ONU… Son fuentes disponibles y que la comunidad de traductores lleva mucho tiempo utilizando. La Wikipedia tiene textos paralelos, pero nosotros usamos frases paralelas. Con todo, de ahí hemos sacado mucho.
P. ¿Cuál es el siguiente paso?
R. Ahora lo que queremos es dar el salto a traducir texto a texto. También estamos ya con los traductores de voz a voz, que presentamos el año pasado. No solo traducen, sino que además mantienen tu tono de voz y tu expresividad. De momento cubre 100 idiomas de entrada y una treintena de salida.
P. ¿Hasta dónde pueden llegar? ¿Acabarán algún día con las barreras de los idiomas?
R. Estos sistemas son muy útiles en muchas situaciones, por ejemplo si estás perdido en China y nadie habla inglés. Pero nosotros ofrecemos traducción, no interpretación. La magia de los intérpretes es que cogen tu mensaje, lo resumen y lo plasman en otro idioma con total fluidez. De la interpretación estamos lejos todavía. El lenguaje tiene muchas sutilezas y emociones que de momento no podemos cubrir.
P. En los últimos meses, se han presentado herramientas de IA generativa multimodal capaces de reconocer objetos de su entorno a través de visión computacional. ¿Qué panorama abre esto para la traducción automática?
R. Sí, vamos para allá, hacia sistemas que sean totalmente multimodales [que procesan, texto, imagen, vídeo y audio]. Eso lo tenemos con Llama 3 [el último modelo de IA generativa de Meta]. El conocimiento del mundo, de las culturas, del vocabulario específico, del contexto… eso lo tienen los intérpretes, pero no las máquinas. Nuestras traducciones se limitan al texto o la voz que insertamos.
P. ¿Hay planes de añadir más idiomas?
R. Hemos sacado guías para insertar nuevas lenguas en el modelo, que es abierto. No lo tenemos que hacer necesariamente nosotros, lo puede hacer la comunidad científica. Nosotros nos ocupamos de que, quienes quieran, puedan hacerlo.
Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.