Crean una nueva herramienta informática que permite analizar cientos de genomas a la vez de forma estandarizada

Archivo - ADN, genoma humano

- JANIECBROS/ISTOCK - Archivo

Publicado: lunes, 23 marzo 2026 7:20

MADRID, 23 Mar. (EUROPA PRESS) -

En un solo experimento, científicos de Instituto de Descubrimiento Médico Sanford Burnham Prebys y de la Universidad de California en Los Ángeles (Estados Unidos) han logrado descifrar los genomas completos de numerosas muestras de pacientes, modelos animales o células cultivadas.

Para aprovechar al máximo el potencial del estudio de la biología a esta escala sin precedentes, los investigadores deben estar preparados para analizar la ingente cantidad de datos generados por estos nuevos métodos.

Tal y como se publica en 'Cell Reports Methods' sus hallazgos sobre la creación y prueba de una nueva herramienta computacional para abordar conjuntos de datos de secuenciación masivos y complejos. Este nuevo recurso, denominado metapipeline-DNA, también podría estandarizar el análisis de datos de secuenciación entre diferentes laboratorios de investigación.

La secuencia de un solo genoma humano representa aproximadamente 100 gigabytes de datos brutos, el equivalente a unas 20.000 fotos tomadas con un teléfono inteligente. La magnitud de los datos experimentales aumenta significativamente a medida que se añaden decenas o cientos de genomas.

A medida que la tecnología para generar estos datos ha avanzado rápidamente en los últimos 10-15 años y se ha vuelto más asequible y accesible, muchos laboratorios han desarrollado su propio software para el análisis o han personalizado herramientas de acceso abierto compartidas gratuitamente por sus colegas. Algunos de estos recursos solo funcionan en sistemas específicos de supercomputación o computación en la nube.

Este panorama fragmentado del software puede complicar la colaboración entre instituciones, generar dificultades cuando los laboratorios se trasladan a nuevas instituciones o las instituciones cambian a nuevas soluciones informáticas, y contribuir a la falta de estandarización, así como a los desafíos que plantea la reproducción de estudios con diferentes herramientas.

"Las plataformas bioinformáticas para datos de secuenciación genómica, como metapipeline-DNA, están diseñadas para estandarizar el análisis de todos estos datos y garantizar que se procesen de forma uniforme y reproducible", destaca Yash Patel, máster en ciencias, arquitecto de infraestructura de nube e IA en Sanford Burnham Prebys y coautor principal del estudio. "El objetivo es automatizar el control de calidad, la determinación de variantes genéticas y todos los demás pasos del análisis para que resulte mucho más sencillo, de modo que los investigadores no necesiten escribir su propio código para procesar sus datos", añade el experto.

El equipo de desarrollo de metapipeline-DNA hizo hincapié en la capacidad del software para detectar y corregir errores comunes. Incluso con los potentes clústeres de supercomputación que utilizan los científicos para analizar datos de secuenciación, los fallos en las ejecuciones pueden costar días de tiempo de computación y retrasar nuevos descubrimientos.

"Al diseñar el software, nos centramos en asegurarnos de que las opciones que presentamos a los usuarios estén completamente validadas antes de que se ejecute el proceso", agrega Paul Boutros, director y profesor del Centro Oncológico designado por el NCI en Sanford Burnham Prebys. "En nuestro laboratorio, no queremos sufrir ningún contratiempo debido a un error de configuración evitable, y no queremos que le ocurra a nadie que utilice nuestros sistemas."

El proceso de desarrollo colaborativo ha contado con la participación de 43 colaboradores que realizaron 1.408 solicitudes de extracción para mejorar el código subyacente, y 46 personas que enviaron 1.124 sugerencias, solicitudes de funciones y/o informes de problemas.

Para mejorar la capacidad de metapipeline-DNA para determinar dónde se han producido cambios en el genoma, los científicos colaboraron con el Consorcio Genome in a Bottle, liderado por el Instituto Nacional de Estándares y Tecnología del Departamento de Comercio de Estados Unidos. Al incorporar los recursos meticulosamente validados de este consorcio público-privado-académico, los investigadores redujeron la tasa de falsos positivos sin disminuir la precisión de la herramienta para encontrar variantes genéticas reales.

Los investigadores también elaboraron dos estudios de caso que demuestran las capacidades de la plataforma para la investigación del cáncer. Los investigadores utilizaron metapipeline-DNA para analizar datos de secuenciación de cinco pacientes que donaron muestras de tejido normal y tumoral al conjunto de datos Pan-Cancer Analysis of Whole Genomes, así como otros cinco del Cancer Genome Atlas.

El siguiente paso es introducir metapipeline-DNA en más laboratorios para acelerar los descubrimientos y seguir mejorando el recurso con más comentarios de los usuarios. "Esta herramienta debería permitir a los laboratorios procesar datos sin necesidad de tener muchos conocimientos de computación o infraestructura informática, y sin tener que optimizarla para su entorno informático específico", indice Patel.

Además, los autores planean partir de esta base para crear soluciones automatizadas e integrales para el análisis de la secuenciación de otras moléculas biológicas, como el ARN y las proteínas.

Crean una nueva herramienta informática que permite analizar cientos de genomas a la vez de forma estandarizada

Contenido patrocinado