MADRID, 3 May. (EUROPA PRESS) -
El uso de modelos de lenguaje grandes (LLM, por sus siglas en inglés) disponibles públicamente resultó en cambios en la clasificación de los informes de imágenes mamarias que podrían tener un efecto negativo en el manejo de los pacientes, según un nuevo estudio internacional publicado en la revista 'Radiology', una revista de la Sociedad de Radiología de América del Norte (RSNA). Los hallazgos del estudio subrayan la necesidad de regular estos LLM en escenarios que requieren un razonamiento médico de alto nivel, dijeron los investigadores.
Los LLM son un tipo de inteligencia artificial (IA) ampliamente utilizado en la actualidad para diversos fines. En radiología, los LLM ya han sido probados en una amplia variedad de tareas clínicas, desde procesar formularios de solicitud de radiología hasta brindar recomendaciones de imágenes y apoyo al diagnóstico.
Los LLM genéricos disponibles públicamente como ChatGPT (GPT 3.5 y GPT-4) y Google Gemini (anteriormente Bard) han mostrado resultados prometedores en algunas tareas. Sin embargo, es importante destacar que tienen menos éxito en tareas más complejas que requieren un mayor nivel de razonamiento y conocimiento clínico más profundo, como proporcionar recomendaciones de imágenes. Es posible que los usuarios que buscan asesoramiento médico no siempre comprendan las limitaciones de estos programas no capacitados.
"Evaluar las capacidades de los LLM genéricos sigue siendo importante, ya que estas herramientas son las más fácilmente disponibles y pueden ser utilizadas injustificadamente tanto por pacientes como por médicos no radiólogos que buscan una segunda opinión", expone la coautora principal del estudio Andrea Cozzi, residente de radiología e investigadora postdoctoral en el Instituto de Imagenología del Sur de Suiza.
La doctora Cozzi y su equipo se propusieron probar los LLM genéricos en una tarea que pertenece a la rutina clínica diaria pero donde la profundidad del razonamiento médico es alta y donde el uso de idiomas distintos del inglés enfatizaría aún más las capacidades de los LLM. Se centraron en el acuerdo entre lectores humanos y LLM para la asignación de categorías del Sistema de datos e informes de imágenes mamarias (BI-RADS), un sistema ampliamente utilizado para describir y clasificar lesiones mamarias.
Los investigadores suizos se asociaron con un equipo estadounidense del Centro Oncológico Memorial Sloan Kettering de la ciudad de Nueva York (Estados Unidos) y un equipo holandés del Instituto del Cáncer de los Países Bajos en Ámsterdam (Países Bajos).
El estudio incluyó clasificaciones BI-RADS de 2.400 informes de imágenes mamarias escritos en inglés, italiano y holandés. Tres LLM (GPT-3.5, GPT-4 y Google Bard (ahora rebautizado como Google Gemini)) asignaron categorías BI-RADS utilizando únicamente los hallazgos descritos por los radiólogos originales. Luego, los investigadores compararon el desempeño de los LLM con el de los radiólogos de mama certificados.
El acuerdo para las asignaciones de categorías BI-RADS entre lectores humanos fue casi perfecto. Sin embargo, el acuerdo entre los humanos y los LLM fue sólo moderado. Lo más importante es que los investigadores también observaron un alto porcentaje de asignaciones de categorías discordantes que darían lugar a cambios negativos en el tratamiento de los pacientes. Esto plantea varias preocupaciones sobre las posibles consecuencias de confiar demasiado en estos LLM ampliamente disponibles.
Según la doctora Cozzi, los resultados resaltan la necesidad de regular los LLM cuando existe una posibilidad muy probable de que los usuarios les hagan preguntas relacionadas con la atención médica de diversa profundidad y complejidad.
"Los resultados de este estudio se suman al creciente conjunto de evidencia que nos recuerda la necesidad de comprender y resaltar cuidadosamente los pros y los contras del uso de LLM en la atención médica", concluyen. "Estos programas pueden ser una herramienta maravillosa para muchas tareas, pero deben usarse con prudencia. Los pacientes deben ser conscientes de las deficiencias intrínsecas de estas herramientas y de que pueden recibir respuestas incompletas o incluso completamente erróneas a preguntas complejas".