La inteligencia artificial en el avance de la ciencia
La inteligencia artificial (IA) es ya una herramienta fundamental para el avance de la ciencia. “Como informático, creo que el ser humano es el programa más complejo jamás escrito. Es increíble poder acceder a una parte de ese código”, dice Pushmeet Kohli, vicepresidente de Ciencia de Google DeepMind. Sabe de lo que habla. Su jefe, Demis Hassabis, y su compañero John Jumper han ganado este año el Premio Nobel de Química por su aportación a “la predicción de la estructura de las proteínas mediante el uso de inteligencia artificial”. El galardón reconoce la utilidad de AlphaFold2, la herramienta que ha logrado describir la forma tridimensional de 200 millones de proteínas, una información clave para entender el funcionamiento de los organismos.
El equipo detrás de AlphaFold2
Kohli supervisó el equipo que escribió el código de AlphaFold2. Dirige a unos 150 investigadores que conforman la pata más puramente científica de DeepMind, la división de la empresa de Google que —según aseguran— vive al margen de las necesidades comerciales de su matriz y que no participa en la carrera de la IA generativa. Este experto en aprendizaje automático y visión computacional de 43 años se crio a los pies del Himalaya, en Dehradun, India, y se mudó a Reino Unido para completar sus estudios. Tras doctorarse en la Universidad de Cambridge, fue contratado por Microsoft, donde llegó a ser director de investigación. En 2017, Hassabis le pidió que se encargara de los proyectos científicos de DeepMind.
La IA transformando la ciencia
Para Kohli, la IA ha abierto un nuevo horizonte. “En cualquier área de la ciencia en la que te fijes, la IA está transformando lo que se puede hacer”, dice a EL PAÍS tras intervenir en el foro AI for Science, organizado en Londres por su empresa y la Royal Society.
Impacto de la IA en diferentes disciplinas científicas
Pregunta. ¿Hay alguna disciplina científica que no pueda verse beneficiada por el impulso de la IA?
Respuesta. Si puedes formular la pregunta científica en la que trabajas como un problema de razonamiento o como un problema de reconocimiento de patrones, en el que haya que extraer ciertas conclusiones de los datos, entonces la IA tiene mucho que aportar. Un error común es olvidar que tienes que ser capaz de capturar los datos de los objetos físicos que estás estudiando. Por ejemplo, no tiene sentido hacer modelos que traten de predecir las emociones, porque los datos con los que lo entrenarás son reacciones subjetivas de humanos que han visto tal o cual expresión facial o lenguaje corporal en contextos determinados. Es muy importante para nosotros conocer las limitaciones de los modelos.
Proyectos enfocados en biología y genómica
P. ¿En qué tipo de proyectos están interesados?
R. Tenemos mucho trabajo en torno a la biología. La biología estructural la hemos tocado con AlphaFold, pero también nos interesa mucho la genómica: queremos entender la semántica del ADN, saber qué pasa con los problemas de las variantes de significado desconocido. Ese es nuestro próximo reto. Si hay una mutación en el genoma, ¿qué efecto concreto tiene? También estamos trabajando en nuevos materiales, creemos que hay mucho potencial para avanzar ahí. Otras áreas importantes para nosotros son la fusión nuclear, el clima y la ciencia básica relacionada con las matemáticas y la informática.
Objetivos en fusión nuclear y nuevos materiales
P. ¿Qué objetivos se marcan en las áreas de fusión y nuevos materiales?
R. En fusión nuclear, el objetivo es maximizar el tiempo que podemos mantener el plasma estable. Cuando se enciende el reactor de fusión, nuestro sistema de IA controla el campo magnético, que se tiene que ir modulando sutilmente sin causar disrupciones que desestabilicen el plasma y manteniendo la temperatura y fricción adecuadas. En cuanto al desarrollo de materiales, el objetivo es desarrollar nuevos materiales que, cuando se prueben en laboratorio, veamos que son sintetizables y estables.
Entendiendo la semántica del ADN
P. Dice que, en el área de genómica, el objetivo es entender la semántica del ADN. ¿En qué punto están de ese proceso?
R. El proyecto del genoma humano leyó los 3.000 millones de caracteres del código que nos hace como somos. Resulta que todas esas letras tienen un significado, un propósito, que actualmente no entendemos del todo. Hay dos componentes del genoma: la parte codificante y la no codificante. La primera habla de cuáles son las proteínas que se expresarán; la segunda, sobre los mecanismos de regulación que dicen cuánta proteína debería expresarse, etcétera. Pues para la parte codificante ya estamos haciendo predicciones con un alto nivel de fiabilidad. Creemos que estamos cerca de poder decir si ciertas mutaciones van a ser o no problemáticas. Pero saber cómo y por qué van a ser problemáticas es todavía un área abierta de investigación. Y lo mismo pasa con la parte no codificante: queremos saber cómo sucede la expresión de las proteínas. No hay horizonte para acabar el proyecto ahora mismo. Pero, cuando lo hagamos, realmente tendremos un entendimiento del lenguaje de la vida. Y entonces podremos empezar a pensar cómo editar el genoma para conseguir ciertos objetivos.
Impacto de la IA generativa
P. ¿Hasta qué punto la carrera por la IA generativa, que en el caso de Google capitaliza Gemini, ha distraído otras líneas de investigación de la empresa?
R. La IA generativa es un concepto muy poderoso, también para la ciencia, porque ha desbloqueado algo nuevo. Hasta ahora, gran parte de nuestro esfuerzo se centraba en aprovechar datos que estaban estructurados, en el sentido de que tenías una secuencia y una predicción, podías ver los resultados en forma tabular. Ahora, muchos avances científicos están contenidos en artículos en forma de texto, así que ya no éramos capaces de aplicarle IA para aprovechar esa especie de intuición que aporta. Los grandes modelos de lenguaje nos han permitido extraer conocimiento de esa literatura científica. Así que, en cierto sentido, la IA generativa está ayudando en la ciencia porque abre un nuevo campo.
Uso de datos sintéticos en modelos de IA
P. La IA generativa se apoya en bases de datos gigantes, que ya han agotado todo internet. Se empieza a decir que los próximos modelos se entrenarán con datos sintéticos, los creados por máquinas. ¿Cómo lo ve usted?
R. Creo que cuanto mayor es un modelo, más expresivo es, mayor nivel de libertad tiene. Con más datos, podemos tener más supervisión y control sobre lo que el sistema va a aprender. Pero esta no es una cuestión de tamaño, lo que realmente importa es la diversidad de los datos, que aporten al modelo diferentes tipos de problemas de los que extraer intuiciones.
Aplicaciones de los datos sintéticos
P. ¿Eso lo consiguen los datos sintéticos?
R. No es algo que funcione en todos los casos. Normalmente, usamos datos que han sido obtenidos realizando experimentos. En el caso de AlphaFold, se entrenó en una base de datos con 150.000 proteínas y, tras el entrenamiento, fuimos capaces de predecir la estructura de más de 200 millones. En algunos casos, usamos simulaciones. Eso hacemos en nuestros trabajos sobre fusión nuclear: intentamos ver posibles formas en que se pueda comportar el plasma para ver cómo controlarlo, con la idea de que, cuando se aplique al mundo real en un reactor nuclear, el sistema sea capaz de generalizar. Y, finalmente, está la idea de los datos sintéticos, generados por IA. En algunos casos, puedes hacer que el modelo produzca ciertos tipos de datos que no estaban presentes en la base de datos de entrenamiento. Por ejemplo, imaginemos que en la base de datos original solo tenemos imágenes de sillas verdes, pero en una base de datos sintética, como conocemos los conceptos de azul o rojo, generamos sillas de muchos colores distintos. Así que el modelo final será capaz de entender que las sillas pueden ser de varios colores y detectarlas.
Problemas que resuelven los modelos de IA
P. ¿Qué tipo de problemas pueden resolverse con este tipo de modelos?
R. Esto puede ser aplicado a casi cualquier problema que podamos imaginar, pero puede que no funcione con todos. Todavía no tenemos una teoría para entender cuándo son útiles los datos sintéticos. Pero en algunos casos sí hemos comprobado que, usando esta técnica, obtenemos una mejoría en el rendimiento del sistema.
Uso de datos sintéticos en DeepMind
P. ¿Qué proporción de datos sintéticos usan?
R. Estamos invirtiendo en esos tres tipos de fuente de datos. Especialmente en simulación, que es la fuente más efectiva y que puede ser controlada. Estamos usando datos sintéticos, pero con cautela: es muy importante que el modelo original sea bueno, porque si no el resultado no sirve.
“Congratulations to John, the #AlphaFold team, and everyone at DeepMind & Google that supported us along the way – it’s an amazing award for all of us! It’s such an honour and privilege to work with all of you to advance the frontiers of science.” – @DemisHassabis
Find out more… pic.twitter.com/XAr86gFEf3
— Google DeepMind (@GoogleDeepMind) October 10, 2024
artículo original de: https://elpais.com/tecnologia/2025-01-06/pushmeet-kohli-google-deepmind-nuestro-proximo-reto-es-entender-la-semantica-del-adn.html