Es la primera vez que se utilizan datos estructurales de proteínas y se combinan con datos de secuencias genómicas para mejorar la fiabilidad de los árboles evolutivos, un recurso crítico utilizado por la comunidad científica para comprender la historia de árbol de la vida, monitorear la propagación de patógenos o crear nuevos tratamientos para enfermedades.
El enfoque funciona incluso con la predicción de estructuras de proteínas. Tiene implicaciones para la enorme cantidad de datos estructurales generados por herramientas como AlphaFold 2 y ayuda a esclarecer aspectos de la historia antigua de la vida en la Tierra.
Se ha trazado la estructura tridimensional de unas 210.000 proteínas, pero se conoce la secuencia de más de 250 millones. Iniciativas como el proyecto EarthBioGenome podrían generar miles de millones de secuencias de proteínas más en los próximos años. Esta abundancia de datos abre la puerta a la aplicación del estudio a una escala sin precedentes.
Saturación
Durante muchas décadas, la biología ha reconstruido la evolución rastreando cómo las especies y los genes divergen de los ancestros comunes. Tradicionalmente, estos árboles filogenéticos o evolutivos se construyen comparando secuencias de ADN o proteínas, y contando las similitudes y diferencias para inferir relaciones.
Sin embargo, el campo se enfrenta a un obstáculo importante: la saturación. A lo largo de vastos marcos temporales, las secuencias genómicas pueden cambiar tanto que ya no se parecen a sus formas ancestrales, borrando las señales de la herencia compartida.
“El tema de la saturación domina la filogenia y representa el principal obstáculo para la reconstrucción del árbol de la vida”, afirma el Dr. Cedric Notredame, investigador del Centro de Regulación Genómica (CRG) y autor principal del estudio. “Es como la erosión de un texto antiguo. Las letras se vuelven indistintas, y el mensaje se pierde”.
Estructuras físicas de las proteínas
El equipo de investigación recurrió a las estructuras físicas de las proteínas. Las proteínas se pliegan en formas complejas que determinan la función de una célula. Las estructuras de proteínas se conservan mejor a lo largo de la evolución que las propias secuencias, lo que significa que cambian más lentamente y conservan las características ancestrales durante más tiempo.
La estructura de una proteína está dictada por su secuencia de aminoácidos. Si bien las secuencias pueden mutar, la estructura general a menudo permanece similar para preservar la función. Los autores del estudio plantearon la hipótesis que implicaba la posibilidad medir lo mucho que divergen las estructuras con el tiempo midiendo la distancia entre pares de aminoácidos dentro de una proteína, lo que también se conoce como distancias intra-moleculares (IMD).
El estudio compiló un conjunto masivo de datos de proteínas con estructuras conocidas, que cubren una amplia variedad de especies. Calcularon los IMD para cada proteína y utilizaron estas mediciones para construir árboles filogenéticos.
Enfoque combinado
Descubrieron que los árboles construidos a partir de datos estructurales coincidían estrechamente con los derivados de las secuencias genéticas, pero con una ventaja crucial: los árboles estructurales se veían menos afectados por la saturación. Esto significa que mantuvieron señales fiables incluso cuando las secuencias genéticas habían divergido significativamente.
Reconociendo que tanto las secuencias como las estructuras ofrecen información valiosa, el equipo desarrolló un enfoque combinado que no solo mejoró la fiabilidad de las distintas ramas de los árboles, sino que también ayudó a distinguir entre las relaciones correctas e incorrectas.
“Es como tener dos testigos que describen un evento desde diferentes ángulos”, explica la Dra. Leila Mansouri, coautora del estudio. “Cada uno proporciona detalles únicos, pero juntos proporcionan una narrativa más completa y precisa”.
Relación entre las quinasas y el genoma
Un ejemplo práctico en el que el enfoque combinado podría tener un impacto significativo es la comprensión de las relaciones entre las quinasas en el genoma humano. Las quinasas son proteínas involucradas en muchas funciones celulares importantes.
“El genoma de la mayoría de los mamíferos, incluidos los humanos, contiene alrededor de 500 proteínas quinasas que regulan la mayoría de los aspectos de nuestra biología”, dice el Dr. Notredame. “Estas quinasas son dianas terapéuticas importantes contra el cáncer, por ejemplo, fármacos como el Imatinib para los humanos o el Toceranib para los perros”.
Las quinasas humanas han surgido a través de duplicaciones ocurridas durante los últimos mil millones de años. “Dentro del genoma humano, las quinasas más antiguas están separadas por unos mil millones de años de las más recientes”, dice el Dr. Notredame. “Se duplicaron en el ancestro común del ancestro común de nuestro ancestro común”.
Avance contra la enfermedad
Este vasto marco temporal hace que sea increíblemente difícil construir árboles genéticos precisos que muestren cómo se relacionan todas las quinasas. “Sin embargo, por imperfecto que sea, el árbol evolutivo de la quinasa se usa ampliamente para comprender cómo interactúa un fármaco con otro. La mejora de este árbol, o la mejora de los árboles de otras familias proteicas importantes, sería un avance importante para la salud humana”, añade el Dr. Notredame.
Las posibles aplicaciones de este trabajo van más allá del cáncer. Se podría usar el método para crear árboles evolutivos más precisos que mejoren nuestra comprensión sobre la evolución de las enfermedades en general, ayudando en el desarrollo de vacunas y tratamientos. También pueden ayudar a arrojar luz sobre los orígenes de rasgos complejos, guiar el descubrimiento de nuevas enzimas para la biotecnología e incluso ayudar a rastrear la propagación de especies en respuesta al cambio climático.
Fuente: CRG
artículo original de: https://www.saludadiario.es/investigacion/las-estructuras-de-las-proteinas-pueden-ayudar-a-esclarecer-la-historia-del-arbol-de-la-vida/