Publicado 16/03/2021 07:58CET

Los modelos de aprendizaje automático para diagnosticar COVID-19 aún no son adecuados para uso clínico

Archivo - Coronavirus, virus, covid-19.
Archivo - Coronavirus, virus, covid-19. - MATRYX/PIXABAY - Archivo

MADRID, 16 Mar. (EUROPA PRESS) -

Los investigadores han descubierto que de los más de 300 modelos de aprendizaje automático de COVID-19 descritos en artículos científicos en 2020, ninguno de ellos es adecuado para detectar o diagnosticar COVID-19 a partir de imágenes médicas estándar, debido a sesgos, fallos metodológicos, falta de reproducibilidad y conjuntos de datos de 'Frankenstein', según publican en la revista 'Nature Machine Intelligence'.

El equipo de investigadores, dirigido por la Universidad de Cambridge, en Reino Unido, llevó a cabo una revisión sistemática de los manuscritos científicos, publicados entre el 1 de enero y el 3 de octubre de 2020, en los que se describían modelos de aprendizaje automático que afirmaban ser capaces de diagnosticar o pronosticar el COVID-19 a partir de radiografías de tórax (CXR) e imágenes de tomografía computarizada (CT). Algunos de estos artículos habían sido sometidos al proceso de revisión por pares, mientras que la mayoría no.

Su búsqueda identificó 2.212 estudios, de los cuales 415 se incluyeron después del cribado inicial y, después del cribado de calidad, se incluyeron 62 estudios en la revisión sistemática. Ninguno de los 62 modelos tenía un uso clínico potencial, lo que es una debilidad importante, dada la urgencia con la que se necesitan modelos COVID-19 validados.

El aprendizaje automático es una técnica prometedora y potencialmente poderosa para la detección y el pronóstico de enfermedades. Estos métodos, incluso cuando se combinan imágenes y otros flujos de datos con grandes bases de datos de salud electrónicas, podrían permitir un enfoque personalizado de la medicina a través de un mejor diagnóstico y predicción de las respuestas individuales a las terapias.

"Sin embargo, cualquier algoritmo de aprendizaje automático es tan bueno como los datos con los que está entrenado --señala el primer autor, el doctor Michael Roberts, del Departamento de Matemáticas Aplicadas y Física Teórica de Cambridge--. Especialmente para una enfermedad nueva como el COVID-19, es vital que los datos de entrenamiento sean lo más diversos posible porque, como hemos visto a lo largo de esta pandemia, hay muchos factores diferentes que afectan el aspecto y en la forma en que la enfermedad se comporta".

"La comunidad internacional de aprendizaje automático ha realizado enormes esfuerzos para abordar la pandemia del COVID-19 utilizando el aprendizaje automático --recuerda el autor principal conjunto, el doctor James Rudd, del Departamento de Medicina de Cambridge--. Estos primeros estudios son prometedores, pero adolecen de una alta prevalencia de deficiencias en la metodología y la presentación de informes, y ninguna de las publicaciones que hemos revisado alcanza el umbral de solidez y reproducibilidad esencial para apoyar su uso en la práctica clínica".

Muchos de los estudios se vieron obstaculizados por problemas de mala calidad de los datos, mala aplicación de la metodología de aprendizaje automático, escasa reproducibilidad y sesgos en el diseño del estudio. Por ejemplo, varios conjuntos de datos de entrenamiento utilizaron imágenes de niños para sus datos 'no COVID-19' e imágenes de adultos para sus datos COVID-19.

"Sin embargo, dado que los niños tienen muchas menos probabilidades de contraer COVID-19 que los adultos, lo único que podía hacer el modelo de aprendizaje automático era diferenciar entre niños y adultos, ya que incluir imágenes de niños hacía que el modelo estuviera muy sesgado", afirma Roberts.

Muchos de los modelos de aprendizaje automático se entrenaron en conjuntos de datos de muestra que eran demasiado pequeños para ser efectivos. "En los primeros días de la pandemia había tanta hambre de información y, sin duda, algunas publicaciones se apresuraron --reconoce Rudd--. Pero si basa su modelo en datos de un solo hospital es posible que no funcione con datos de un hospital en la ciudad vecina: los datos deben ser diversos e idealmente internacionales, o de lo contrario, está configurando su aprendizaje automático modelo hasta fallar cuando se prueba más ampliamente".

En muchos casos, los estudios no especificaron de dónde procedían sus datos, o los modelos se entrenaron y probaron con los mismos datos, o se basaron en 'conjuntos de datos de Frankenstein' disponibles públicamente que habían evolucionado y se habían fusionado con el tiempo, lo que lo hacía imposible reproducir los resultados iniciales.

Otro defecto generalizado en muchos de los estudios fue la falta de participación de radiólogos y médicos. "Ya sea que esté utilizando el aprendizaje automático para predecir el clima o cómo podría progresar una enfermedad, es muy importante asegurarse de que los diferentes especialistas trabajen juntos y hablen el mismo idioma, para poder enfocar los problemas correctos", destaca Roberts.

A pesar de los fallos que encontraron en los modelos COVID-19, los investigadores dicen que con algunas modificaciones clave, el aprendizaje automático puede ser una herramienta poderosa para combatir la pandemia. Por ejemplo, advierten contra el uso ingenuo de conjuntos de datos públicos, que pueden generar riesgos significativos de sesgo. Además, los conjuntos de datos deben ser diversos y de tamaño apropiado para que el modelo sea útil para diferentes grupos demográficos y se deben seleccionar conjuntos de datos externos independientes.

Además de conjuntos de datos de mayor calidad, se requieren manuscritos con documentación suficiente para ser reproducibles y validación externa para aumentar la probabilidad de que los modelos se adopten e integren en ensayos clínicos futuros para establecer una validación técnica y clínica independiente, así como la rentabilidad.

Contador