MADRID, 1 Ago. (EUROPA PRESS) -
Científicos del Instituto Salk (Estados Unidos) han comenzado a explorar el lado oscuro del genoma en busca de microproteínas, con su nueva herramienta, ShortStop, según publican en 'BMC Methods'.
Las proteínas sustentan la vida tal como la conocemos, desempeñando importantes funciones estructurales y funcionales en todo el cuerpo. Sin embargo, estas grandes moléculas han proyectado una gran sombra sobre una subclase más pequeña de proteínas llamadas microproteínas. Las microproteínas se han perdido en el 99% del ADN considerado "no codificante", escondiéndose en vastas y oscuras extensiones de código genético inexplorado. Pero a pesar de ser pequeñas y esquivas, su impacto podría ser tan grande como el de las proteínas más grandes.
Ahora, gracias a esta nueva herramienta, bautizada como ShortStop, los investigadores pueden explorar bases de datos genéticas e identificar fragmentos de ADN en el genoma que probablemente codifiquen microproteínas. Cabe destacar que ShortStop también predice qué microproteínas tienen mayor probabilidad de ser biológicamente relevantes, ahorrando tiempo y dinero en la búsqueda de microproteínas implicadas en la salud y la enfermedad.
De esta forma, ShortStop aporta una nueva perspectiva a los conjuntos de datos existentes, destacando microproteínas que antes eran imposibles de encontrar. De hecho, el equipo de Salk ya ha utilizado la herramienta para analizar un conjunto de datos de cáncer de pulmón y han logrado encontrar 210 microproteínas candidatas completamente nuevas -con una microproteína validada destacada- que podrían ser buenas dianas terapéuticas en el futuro.
"La mayoría de las proteínas de nuestro cuerpo son bien conocidas, pero descubrimientos recientes sugieren que hemos estado pasando por alto miles de proteínas pequeñas y ocultas, llamadas microproteínas, codificadas por regiones ignoradas de nuestro genoma", señala el autor principal Alan Saghatelian, profesor y titular en Salk. "Durante mucho tiempo, los científicos solo estudiaban las regiones del ADN que codificaban proteínas grandes y descartaban el resto como 'ADN basura', pero ahora estamos descubriendo que estas otras regiones son realmente muy importantes, y las microproteínas que producen podrían desempeñar un papel crucial en la regulación de la salud y la enfermedad".
Los científicos han descubierto que ciertos tramos de ADN, llamados pequeños marcos abiertos de lectura (smORF), pueden contener las instrucciones para la síntesis de microproteínas. Los métodos experimentales actuales ya han catalogado miles de smORF, pero estas herramientas siguen siendo laboriosas y costosas. Además, su incapacidad para separar las microproteínas potencialmente funcionales de las no funcionales ha frenado su descubrimiento y caracterización. No obstante, todos los smORF se traducen en microproteínas biológicamente significativas. Los métodos existentes no pueden distinguir entre smORF generadores de microproteínas funcionales y no funcionales. Esto significa que los científicos deben analizar cada microproteína de forma independiente para determinar su funcionalidad.
ShortStop modifica radicalmente este flujo de trabajo, optimizando el descubrimiento de smORFs al clasificar las microproteínas en categorías funcionales y no funcionales. La clave de la clasificación de dos clases de ShortStop reside en su entrenamiento como sistema de aprendizaje automático. Su entrenamiento se basa en un conjunto de datos de control negativo de smORFs aleatorios generados por computadora. ShortStop compara los smORFs encontrados con estos señuelos para determinar rápidamente si un nuevo smORF es funcional o no.
ShortStop no puede determinar con certeza si un smORF codificará una microproteína biológicamente relevante, pero este sistema de dos clases reduce considerablemente el número de experimentos disponibles. Ahora los investigadores pueden dedicar menos tiempo a revisar manualmente los conjuntos de datos y a fallar en el laboratorio.
Así, al aplicar ShortStop a un conjunto de datos smORF previamente publicado, los investigadores identificaron el 8% como probables microproteínas funcionales, priorizándolas para un seguimiento específico. Esto acelera la caracterización de las microproteínas al filtrar secuencias con poca relevancia biológica. ShortStop también pudo identificar microproteínas que otros métodos habían pasado por alto, incluyendo una que se validó al detectarse en células y tejidos humanos.
"Lo que hace que ShortStop sea especialmente potente es que funciona con tipos de datos comunes, como los conjuntos de datos de secuenciación de ARN, que muchos laboratorios ya utilizan", destaca el primer autor, Brendan Miller, investigador postdoctoral en el laboratorio de Saghatelian. "Esto significa que ahora podemos buscar microproteínas en tejidos sanos y enfermos a gran escala, lo que revelará nuevos conocimientos sobre la biología humana y abrirá nuevas vías para el diagnóstico y el tratamiento de enfermedades como el cáncer y el Alzheimer".
Los investigadores ya han utilizado ShortStop para identificar una microproteína con expresión aumentada en tumores de cáncer de pulmón. Analizaron datos genéticos de tumores pulmonares humanos y tejido normal adyacente para crear una lista de posibles smORF funcionales. Entre los smORF que ShortStop encontró, uno destacó: se expresó más en el tejido tumoral que en el tejido normal, lo que sugiere que podría servir como biomarcador o microproteína funcional para el cáncer de pulmón. La identificación de esta microproteína relacionada con el cáncer de pulmón demuestra el valor de ShortStop y el aprendizaje automático para priorizar candidatos para futuras investigaciones y desarrollos terapéuticos.
"Ya existe una gran cantidad de datos que ahora podemos procesar con ShortStop para encontrar nuevas microproteínas asociadas con la salud y la enfermedad, desde el Alzheimer hasta la obesidad y más allá", finaliza Saghatelian.