¿Preguntas a la IA cuestiones médicas? Acierta en tres de cada cuatro ocasiones pero aún comete errores no desdeñables

La tasa de fallos supera el 20%, aproximadamente el doble que la de los médicos humanos

Archivo - Tecnología médica: los médicos utilizan la IA para diagnosticar y mejorar la precisión de los tratamientos. La investigación y el desarrollo médicos innovan en tecnología para mejorar la salud del paciente.
Archivo - Tecnología médica: los médicos utilizan la IA para diagnosticar y mejorar la precisión de los tratamientos. La investigación y el desarrollo médicos innovan en tecnología para mejorar la salud del paciente. - PCESS609/ ISTOCK - Archivo
Infosalus
Publicado: sábado, 6 junio 2026 8:29

   MADRID, 6 Jun. (EUROPA PRESS) -

   Los asistentes virtuales impulsados por inteligencia artificial (IA) responden a preguntas cotidianas relacionadas con la salud de usuarios generales con una precisión de casi el 76%, lo que genera preocupación sobre su confiabilidad en aplicaciones reales de cara a los pacientes, según un nuevo estudio dirigido por investigadores de la Universidad de Pensilvania (Estados Unidos).

   Los investigadores querían comprender cómo la persona promedio utiliza la IA para asuntos relacionados con la salud y con qué precisión responde la IA a consultas médicas cotidianas. Descubrieron que, en lo que respecta a la atención médica, especialmente en áreas especializadas como la neurología y la dermatología, las herramientas de IA pueden ser más efectivas en manos de médicos capacitados que de pacientes.

   El equipo presentará sus hallazgos en la conferencia FAccT (Association for Computing Machinery Fairness, Accountability and Transparency) de 2026, que se celebrará en Montreal (Canadá) del 25 al 28 de junio.

   “Nuestro trabajo se centra explícitamente en escenarios de atención médica que el usuario promedio de internet podría consultar con la IA, una perspectiva que las investigaciones previas sobre modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) y la atención médica no han abordado”, explica Amulya Yadav , coautor del estudio y profesor asociad de informática y sistemas inteligentes en la Facultad de Ciencias de la Información y Tecnología (IST) de Penn State.

   “Queríamos comprender lo precisos que son los LLM, como ChatGPT, al responder preguntas sobre síntomas de salud, de forma similar a como históricamente hemos usado Google, son estos modelos al responder dichas consultas y cuan perjudiciales podrían ser esas respuestas”, añade.

   Para comprender la precisión o el daño que podrían causar las respuestas de los modelos de lenguaje natural (LLM) relacionadas con la salud para el usuario promedio de internet, los investigadores organizaron una competencia de IA llamada Diagnose-a-thon en Penn State.

   Un total de 34 participantes, entre profesores, personal administrativo y estudiantes de pregrado y posgrado, presentaron 212 preguntas y respuestas generadas por IA sobre problemas de salud reales e imaginarios, redactadas desde la perspectiva tanto del paciente como del médico. Los participantes podían elegir uno de los cuatro LLM para usar en el concurso: ChatGPT-4o, ChatGPT-3.5, Gemini-1.5 Pro y Llama3-8b.

   “Una de las fortalezas de nuestro estudio radica en que, básicamente, intentamos replicar el uso real de las herramientas de aprendizaje automático (LLM) pidiendo a los participantes que elijan la que prefieran y la utilicen como lo harían en un día normal --resalta Bonam Mingole, autor principal del estudio y candidato a doctorado en ciencias y tecnología de la información--. Este tipo de investigación participativa es fundamental para comprender cómo el público utiliza la IA en su vida cotidiana”.

   A continuación pidieron a nueve médicos certificados que evaluaran la precisión de las respuestas generadas por la IA y su posible daño, utilizando una escala de seis puntos que iba de muy bajo a muy alto. Un comité de evaluación otorgó premios a las ocho mejores propuestas que generaron la información médicamente más precisa y un premio a la propuesta que generó la respuesta con mayor probabilidad de causar daño.

   Descubrieron que, en general, el 76,2% de las respuestas generadas por LLM proporcionaron información precisa. Las especialidades como obstetricia y ginecología, y otorrinolaringología mostraron el mejor rendimiento de LLM, con puntuaciones de validez altas y puntuaciones de riesgo bajas.

   Por contra, medicina interna, neurología y dermatología presentaron el peor rendimiento de la IA, con puntuaciones de validez bajas y puntuaciones de riesgo más altas, según los investigadores. Añadieron que las preguntas muy específicas, y las preguntas de entre 60 y 250 caracteres, dieron como resultado respuestas de LLM más precisas.

   Los investigadores tomaron el modelo base de cada LLM y lo entrenaron con libros de texto médicos, guías clínicas y artículos de investigación revisados ​​por pares incluidos en el plan de estudios de una facultad de medicina para ver si el entrenamiento adicional aumentaría las puntuaciones de validez de respuesta y disminuiría las puntuaciones de daño.

   Solicitaron a un panel de siete profesionales médicos y estudiantes —un médico certificado, dos residentes de segundo año de medicina interna, dos estudiantes de cuarto año de medicina y dos estudiantes de tercer año de medicina— que evaluaran las respuestas del LLM base y las respuestas de los LLM aumentados y determinaran cuáles eran más apropiadas clínicamente. Los investigadores encontraron que el panel prefirió las respuestas de los modelos base Gemini y Llama sobre los modelos aumentados, y no hubo una preferencia significativa por los modelos ChatGPT.

   “Estamos entrando en una nueva era de la atención médica, y la IA juega un papel fundamental en ella --apunta Jennifer Kraschnewski, coautora del estudio, directora del Instituto de Ciencias Clínicas y Traslacionales de Penn State y profesora de medicina interna en la Facultad de Medicina de Penn State--. Existe una gran oportunidad para que la atención médica se transforme, para integrar estas nuevas herramientas de manera que los médicos como yo podamos utilizarlas para mejorar la atención al paciente”.

   Los investigadores también observaron que, a pesar de las puntuaciones de validez del modelo LLM, la tasa de errores de la IA seguía superando el 20%, aproximadamente el doble que la de los médicos humanos. Estos errores, según indicaron, podrían ser perjudiciales para los pacientes.

   “No creo que la IA vaya a reemplazar a los médicos humanos, pero sí creo que existe una gran oportunidad para ayudar a mejorar las habilidades de los médicos actuales de una manera nunca antes vista”, aventura Kraschnewski, que sugiere que los másteres en derecho actuales podrían resultar mejores herramientas para los profesionales médicos que para los pacientes.

   En general, el estudio destaca los posibles impactos beneficiosos y perjudiciales que la IA puede tener en un aspecto clave de la vida de todos, según los investigadores.

   "Nos guste o no, la gente seguirá utilizando la IA para diagnosticar sus problemas de salud --reconoce S. Shyam Sundar , coautor del estudio, profesor universitario Evan Pugh y profesor James P. Jimirro de Efectos de los Medios en Penn State--. Al comprender sus patrones de uso y comprobar la validez del rendimiento de la IA, nuestro proyecto contribuye a ampliar el conocimiento sobre los mejores y peores usos de la IA para el asesoramiento médico".

Contador

Contenido patrocinado