Teoría de la mente y la Inteligencia Artificial (IA): ¿Son los chatbots capaces de comprender nuestras intenciones implícitas?
La capacidad de inferir las intenciones y pensamientos de los demás es una habilidad que define a los seres humanos. Es lo que se conoce como la teoría de la mente, una base fundamental para nuestras relaciones sociales. Pero, ¿es posible que las máquinas desarrollen esta habilidad?
La IA generativa ha asombrado al mundo con su capacidad para articular textos coherentes en respuesta a instrucciones dadas. ChatGPT, una de las herramientas más populares en este ámbito, ha generado un debate global: ¿Son estos sistemas capaces de mostrar un comportamiento indistinguible de los humanos? ¿Podemos considerar viable una teoría de la mente artificial?
Un equipo de científicos decidió poner a prueba esta teoría. En un estudio publicado en la revista Nature Human Behaviour, analizaron si los grandes modelos de lenguaje (LLM), como ChatGPT y Llama 2 de Meta, son capaces de captar matices humanos. Los resultados han sido sorprendentes: estos modelos obtienen resultados iguales o mejores que los humanos en tareas que implican inferir lo que está pensando el interlocutor.
Según los autores del estudio, los LLM generativos exhiben un rendimiento que es característico de las capacidades sofisticadas de toma de decisiones y razonamiento que se utilizan para probar la teoría de la mente en los seres humanos. Este es un hito significativo en el campo de la IA generativa, dado que estas habilidades son esenciales para la interacción social humana.
Para realizar su estudio, los investigadores utilizaron dos versiones de ChatGPT y el modelo de código abierto de Meta, Llama 2. Estas herramientas fueron sometidas a una serie de experimentos destinados a medir diferentes habilidades relacionadas con la teoría de la mente. Estos variaban desde captar la ironía hasta interpretar peticiones indirectas, detectar conversaciones inapropiadas y responder a preguntas sobre situaciones con información faltante.
Paralelamente, los mismos experimentos se realizaron con 1.907 individuos humanos para contrastar los resultados. Los resultados mostraron que ChatGPT-4 igualó o superó a los humanos en pruebas que implican identificación de peticiones indirectas, falsas creencias y desorientación.
Sin embargo, no todo fue un éxito para ChatGPT-4. La herramienta tuvo dificultades para detectar los llamados pasos en falso (interacciones en las que una de las partes dice algo inapropiado). Curiosamente, este fue el único terreno en el que Llama 2 superó a los humanos, pero los autores del estudio creen que esto se debe a un sesgo y no a una comprensión real.
A pesar de estas limitaciones, los resultados del estudio son impresionantes y significativos. Los LLM muestran un comportamiento coherente con los resultados de la inferencia mentalista en humanos. Esto podría indicar que estas máquinas están empezando a entender los matices y las intenciones implícitas en nuestras interacciones.
El investigador principal del estudio, James W. A. Strachan, sostiene que el rendimiento de los LLM es impresionante y que los modelos de GPT demuestran una capacidad matizada para formar conclusiones sobre estados mentales. Sin embargo, también advierte que estas pruebas no pueden decirnos nada sobre la naturaleza o incluso sobre la existencia de procesos similares a la cognición en las máquinas.
A pesar de estos avances, hay quienes se muestran escépticos. Ramon López de Mántaras, fundador del Instituto de Investigación de Inteligencia Artificial del Centro Superior de Investigaciones Científicas (CSIC), considera que los tests para medir el rendimiento de la IA no son fiables.
Estos hallazgos representan un paso importante en el desarrollo de la IA generativa. No obstante, es importante recordar que todavía estamos lejos de crear máquinas que puedan comprender completamente las complejidades y matices de la interacción humana.