Un error o una media verdad en la IA puede engañar a médicos y provocar graves retrocesos

Archivo - La Fundación Merck Salud lanza la monografía 'Inteligencia Artificial en el campo de la Salud'
Archivo - La Fundación Merck Salud lanza la monografía 'Inteligencia Artificial en el campo de la Salud' - FUNDACIÓN MERCK SALUD - Archivo
Publicado: miércoles, 20 diciembre 2023 7:05

MADRID, 20 Dic. (EUROPA PRESS) -

Los modelos de inteligencia artificial (IA) en la atención sanitaria son un arma de doble filo, ya que mejoran las decisiones diagnósticas para algunos grupos demográficos, pero empeoran las decisiones para otros cuando el modelo ha absorbido datos médicos sesgados, según alerta un estudio publicado en la revista 'JAMA'.

Dados los riesgos reales de vida o muerte en la toma de decisiones clínicas, investigadores y responsables políticos están tomando medidas para garantizar que los modelos de IA sean seguros y fiables, y que su uso permita mejorar los resultados.

La FDA de Estados Unidos supervisa el software basado en IA y aprendizaje automático utilizado en la atención sanitaria y ha publicado directrices para los desarrolladores. Entre ellas se incluye un llamamiento para garantizar que la lógica utilizada por los modelos de IA sea transparente o explicable, de modo que los médicos puedan revisar el razonamiento subyacente.

Sin embargo, el nuevo estudio concluye que, incluso con las explicaciones proporcionadas por la IA, los médicos pueden ser engañados por modelos de IA sesgados.

"El problema es que el médico tiene que entender lo que la explicación comunica y la explicación en sí misma", explica la primera autora, Sarah Jabbour, candidata a doctora en informática e ingeniería por la Facultad de Ingeniería de la Universidad de Michigan.

El equipo de la UM estudió modelos y explicaciones de IA en pacientes con insuficiencia respiratoria aguda.

"Determinar por qué un paciente tiene insuficiencia respiratoria puede ser difícil. En nuestro estudio, observamos que la precisión diagnóstica de referencia de los médicos se situaba en torno al 73%", afirma el doctor Michael Sjoding, profesor asociado de medicina interna de la Facultad de Medicina de la UM y coautor principal del estudio.

"Durante el proceso normal de diagnóstico, tenemos en cuenta los antecedentes del paciente, las pruebas de laboratorio y los resultados de las pruebas de imagen, e intentamos sintetizar esta información para llegar a un diagnóstico --añade--. Tiene sentido que un modelo pueda ayudar a mejorar la precisión".

Jabbour, Sjoding, coautora principal, Jenna Wiens, doctora y profesora asociada de informática e ingeniería, y su equipo multidisciplinar diseñaron un estudio para evaluar la precisión diagnóstica de 457 médicos hospitalistas, enfermeros y asistentes médicos con y sin la ayuda de un modelo de IA.

Se pidió a cada médico que hiciera recomendaciones de tratamiento basadas en sus diagnósticos. Se asignó aleatoriamente a la mitad de los participantes a recibir una explicación de la IA junto con la decisión del modelo de IA, mientras que la otra mitad sólo recibió la decisión de la IA sin ninguna explicación.

A continuación, los médicos recibieron viñetas clínicas reales de pacientes con insuficiencia respiratoria, así como una calificación del modelo de IA sobre si el paciente tenía neumonía, insuficiencia cardiaca o EPOC.

En la mitad de los participantes que recibieron explicaciones de forma aleatoria, el médico recibió un mapa térmico, o representación visual, de los puntos de la radiografía de tórax en los que se fijaba el modelo de IA, que sirvió de base para el diagnóstico.

El equipo descubrió que los médicos a los que se les presentaba un modelo de IA entrenado para realizar predicciones razonablemente precisas, pero sin explicaciones, aumentaban su propia precisión en 2,9 puntos porcentuales. Cuando se les proporcionaba una explicación, su precisión aumentaba en 4,4 puntos porcentuales.

Sin embargo, para comprobar si una explicación podría permitir a los médicos reconocer cuándo un modelo de IA es claramente tendencioso o incorrecto, el equipo también presentó a los médicos modelos entrenados intencionadamente para ser tendenciosos, por ejemplo, un modelo que predecía una alta probabilidad de neumonía si el paciente tenía 80 años o más.

"Los modelos de inteligencia artificial son susceptibles a atajos o correlaciones espurias en los datos de entrenamiento. En un conjunto de datos en el que las mujeres están infradiagnosticadas de insuficiencia cardiaca, el modelo podría detectar una asociación entre ser mujer y tener menos riesgo de insuficiencia cardiaca", explica Wiens.

"Si los médicos se basan en ese modelo, podrían amplificar el sesgo existente --asegura--. Si las explicaciones pudieran ayudar a los clínicos a identificar el razonamiento incorrecto del modelo, esto podría ayudar a mitigar los riesgos".

Sin embargo, cuando se mostró a los médicos el modelo de IA sesgado, su precisión disminuyó en 11,3 puntos porcentuales, y las explicaciones que destacaban explícitamente que la IA estaba analizando información no relevante (como la baja densidad ósea en pacientes mayores de 80 años) no les ayudaron a recuperarse de este grave descenso en el rendimiento.

El equipo señala que el descenso observado en el rendimiento coincide con estudios anteriores según los cuales los usuarios pueden ser engañados por los modelos.

"Aún queda mucho por hacer para desarrollar mejores herramientas de explicación que nos permitan comunicar mejor a los médicos por qué un modelo toma determinadas decisiones de un modo que puedan entender. Será necesario debatirlo mucho con expertos de distintas disciplinas", afirma Jabbour.

El equipo espera que este estudio estimule más investigaciones sobre la aplicación segura de modelos basados en IA en la atención sanitaria a todas las poblaciones y para la educación médica en torno a la IA y los prejuicios.