Investigadores españoles revelan el secreto del éxito académico de las IA


«`
EL PAÍS

La competencia en el mundo de las IAs

Grok 3 es la IA más inteligente del mundo”, lanzó este martes la cuenta de X de Grok. Elon Musk, dueño de la empresa que lo desarrolla, xAI, estuvo todo el día repitiendo mensajes sobre cómo Grok es “el mejor chatbot del mundo” o que “está en la cima del mundo”. Horas antes Sam Altman, de ChatGPT, había escrito: “GPT-4.5 ha sido, para los primeros testadores más exigentes, una experiencia más cercana a una IA con sentido común de lo que esperaba”.

Muchas de estas afirmaciones son puro marketing. Los chatbots de IA son un campo hoy extremadamente competitivo y decir que uno es el mejor atrae mucha inversión. Pero también hay un puñado de indicadores de referencia (llamados benchmarks en inglés) que sirven de prueba para comprobar qué modelos de IA responden mejor en tests similares. Si no estás arriba en esas pruebas, no eres nadie.

Problemas con los benchmarks actuales

“Los números de Grok 3 en su lanzamiento son un ejemplo perfecto de los problemas de la evaluación actual”, dice Julio Gonzalo, catedrático de Lenguajes y Sistemas Informáticos de la UNED. “Si hay mucha presión competitiva, hay exceso de atención sobre los benchmarks, y a las empresas les resultaría fácil manipularlos, así que no podemos fiarnos de los números que nos reportan”. Junto a otros dos investigadores españoles, Gonzalo ha probado un truco sencillo pero implacable para comprobar la eficacia de algunos de estos tests más prominentes. El objetivo básico era saber si los modelos leían y respondían como cualquier estudiante o, en cambio, solo buscaban la respuesta en el ingente cuerpo de datos que se ha usado para su entreno.

El resultado es que son aún sobre todo las máquinas más empollonas nunca antes ideadas: “En su primera fase de entrenamiento, en la que aprenden el lenguaje, el procedimiento es de pesca de arrastre: se leen, esencialmente, todo el contenido online. Por tanto, los desarrolladores saben que la probabilidad de que hayan visto la respuesta a un examen disponible online es muy alta”, explica Gonzalo.

Cómo liar a los modelos

¿Qué detalle han cambiado en el experimento para engañar a los modelos? Los investigadores han sustituido la respuesta correcta por una general que dice: “Ninguna de las otras”. Así, el modelo debía entender la pregunta y razonar, no solo encontrar la respuesta más probable en su memoria. “La respuesta acertada tiene un vocabulario completamente desconectado de la pregunta, lo que le obliga a razonar sobre cada una de las otras respuestas posibles y descartarlas, es una variación mucho más exigente”, dice Gonzalo. “Es verdadera kriptonita para los modelos”, añade.

Según el artículo, “los resultados muestran que todos los modelos pierden precisión de forma notable con nuestra variación propuesta, con una caída promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10 % y el 93 % según el modelo”, escriben los investigadores en el texto.

Este tipo de variaciones ya se había probado sobre todo con las preguntas, pero ha sido este cambio en las respuestas el que ha dado resultados más claros. “Este cambio tan simple de repente quita un velo a la experimentación con benchmarks y nos permite ver el progreso real en las capacidades de razonamiento aproximado de los sistemas sin el ruido que produce el acierto por memorización”, dice Gonzalo.

Este cambio no prueba que las IA sean de repente inútiles, pero sí que su capacidad de razonamiento estaba hinchada y que evoluciona de manera más lenta que los departamentos de marketing y expertos en dar bombo pretenden: “Nuestros resultados demuestran que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalización escasa”, dice Gonzalo. “En otras palabras, siguen contestando de oídas, intuitivamente, y siguen siendo, en esencia, súpercuñados que lo han leído todo, pero no han asimilado nada”.

El debate en torno a la precisión de los benchmarks

Hace unas semanas salió otro test llamado “examen definitivo de humanidad” que, de nuevo, los modelos parecen superar rápido más rápido de lo previsto. Son preguntas más difíciles, de nivel doctorado, y con unas respuestas que en principio no se encuentran online. Un problema añadido sobre esta prueba es que el corrector es otro modelo: ChatGPT-o3 mini. Tampoco parece la solución a los problemas de medición: “Es mucho más importante diseñar bien los exámenes, para que los resultados sean interpretables, que inventar exámenes más difíciles como si los chatbots ya tuvieran el nivel de graduados y hubiera que ponerles a hacer una tesis doctoral”, dice Gonzalo.

Desafíos lingüísticos y el futuro de la IA

También es sustancial la diferencia entre lenguas. Estos modelos sacan mejor nota en inglés. Los investigadores han probado con el español para comparar y sale ya peor. En lenguas más minoritarias los resultados deberían ser aún más flojos: “El trabajo lo hemos hecho dentro del proyecto Odesia, un convenio entre Red.es y la UNED para medir la distancia entre el inglés y el español en IA”, dice Gonzalo. “Hemos detectado una tendencia muy clara: cuanto peor es el modelo (en general, cuando son cerebros artificiales con menos neuronas), más se nota la diferencia entre español y inglés”. Esta diferencia tiene más importancia de lo que parece porque los modelos de tamaño reducido se pueden instalar localmente en dispositivos y eso garantiza la privacidad de los datos. “Así se acaban usando modelos que funcionan mucho peor en español que ChatGPT o Claude”, añade Gonzalo.

Todo esto no significa que los modelos de IA tengan un techo claro. Los modelos de lenguaje puros sí que parecen tener un límite, pero los nuevos de razonamiento son más completos que los anteriores. “Por ejemplo, ChatGPT-o3 mini, aunque baja mucho su rendimiento, es el único que consigue aprobar [uno de los benchmarks]. Se están buscando nuevas técnicas de superar el funcionamiento de los modelos de lenguaje”, dice Gonzalo. En las pruebas de los investigadores, junto al único aprobado pelado de GPT-o3 mini, el otro modelo que mejor queda es DeepSeek R1-70b, porque baja menos que el resto su rendimiento con el nuevo test.

artículo original de: https://elpais.com/tecnologia/2025-02-20/investigadores-espanoles-descubren-el-truco-que-usan-las-ia-para-sacar-tan-buenas-notas-es-verdadera-kriptonita.html

Deja una respuesta