El estudio de las moléculas fundamentales para la función de los genes, conocido como transcriptoma, ha revelado una diversidad de ARN más amplia de lo previsto, lo que podría tener importantes implicancias en el estudio de las enfermedades, el envejecimiento y la complejidad de la vida en la Tierra. Este descubrimiento se logró gracias a la utilización de varias herramientas y tecnologías para la secuenciación de lectura larga del transcriptoma.
Durante años, un consorcio internacional, denominado Proyecto de Evaluación de Anotación del Genoma de Lectura Larga de ARN-Seq (LRGASP), ha estado evaluando las tecnologías y métodos utilizados en los experimentos de secuenciación de lectura larga de ARN. El Consejo Superior de Investigaciones Científicas (CSIC) ha jugado un papel crucial en este consorcio, y los resultados de su esfuerzo se han publicado recientemente. Esta publicación aporta orientaciones cruciales para el futuro de la experimentación y análisis de secuenciación de ARN.
Publicado en la revista Nature Methods, el estudio evalúa las fortalezas y debilidades de las dos principales plataformas de secuenciación de lectura larga de ARN: Oxford Nanopore Technologies y Pacific Biosciences, y los métodos computacionales utilizados para evaluar los datos.
El ARN es el compuesto molecular de las células que transmite la información del ADN a las proteínas a través de los procesos de transcripción y traducción, que son universales para todos los seres vivos. La secuenciación de lectura larga del ARN permite observar moléculas completas de ARN e identificar pequeños cambios en la forma en que los genes producen proteínas. Estos cambios son cruciales para la constitución de organismos complejos como los seres humanos y los fallos en su síntesis se asocian a diversas enfermedades.
Ana Conesa, profesora de investigación del CSIC en el I2SysBio y una de las investigadoras que lideró este consorcio, explica: “Aunque el genoma humano ha sido secuenciado de punta a punta, aún nos enfrentamos a grandes desafíos para definir con exactitud cómo los genes dan lugar a la enorme diversidad de moléculas de ARN y proteínas que forman un ser vivo». Su equipo evaluó las predicciones de ARN propuestas por 14 laboratorios bioinformáticos de todo el mundo, utilizando el software SQANTI3 desarrollado por este grupo en el I2SysBio.
En el estudio se analizaron más de 427 millones de secuencias de lectura larga de ARN, procedentes de humanos, ratones y manatíes. El uso de datos de manatíes permitió probar los métodos en una especie sin un genoma de referencia. Francisco J. Pardo Palacios, investigador predoctoral del I2SysBio y primer autor del estudio, enfatiza la importancia de probar las técnicas en especies no modelo, ya que la falta de información previa puede afectar directamente a los resultados de los análisis.
Después de una extensa recopilación y análisis de datos, el consorcio proporcionó un conjunto de recomendaciones para la secuenciación de ARN. En general, los enfoques de secuenciación de lectura larga funcionan mucho mejor que la secuenciación de lectura corta, siendo la calidad de las lecturas, más que su abundancia, el factor clave de precisión. Además, encontraron una cantidad sorprendente de tránscritos no documentados en los genomas humanos y de ratones.
Ana Conesa resume: «Hemos visto que existe una diversidad de ARNs mucho más grande de lo que pensábamos. Estamos viendo que cada individuo, incluso cada célula, tiene un transcriptoma propio y personal. El siguiente paso es averiguar la relevancia que esto tiene en la enfermedad, el envejecimiento y la diversidad de especies».
La referencia científica del estudio es «Systematic assessment of long-read RNA-seq methods for transcript identification and quantification» publicado en Nature Methods.