La IA que debate consigo misma y alcanza el 97% de aciertos en medicina

Archivo - Una persona realiza las oposiciones para diferentes cuerpos de la Administración General del Estado (AGE), en el Instituto Nacional de Administración Pública, a 16 de septiembre de 2023, en Madrid (España). Unos 160.000 opositores/as optan este
Archivo - Una persona realiza las oposiciones para diferentes cuerpos de la Administración General del Estado (AGE), en el Instituto Nacional de Administración Pública, a 16 de septiembre de 2023, en Madrid (España). Unos 160.000 opositores/as optan este - Ricardo Rubio - Europa Press - Archivo
Infosalus
Publicado: martes, 14 octubre 2025 7:11

   MADRID, 14 Oct. (EUROPA PRESS) -

   Un consejo de cinco modelos de IA que trabajaron en conjunto y discutieron sus respuestas a través de un proceso iterativo logró una precisión del 97%, 93% y 94% en 325 preguntas de exámenes médicos que abarcan las tres etapas del Examen de Licencia Médica de Estados Unidos (USMLE), según un nuevo estudio del investigador independiente Yahya Shaikh, que actualmente trabaja en la Facultad de Medicina Miller de la Universidad de Miami (Estados Unidos). Su trabajo se publica en 'PLOS Medicine'.

   En los últimos años, numerosos estudios han evaluado el rendimiento de los Modelos de Lenguaje Amplio (LLM) en los exámenes de conocimientos y licencias médicas. Si bien las puntuaciones han mejorado en los LLMS, se ha observado un rendimiento variable al formular la misma pregunta varias veces, generando diversas respuestas, algunas incorrectas o alucinaciones.

   En el nuevo estudio, los investigadores desarrollaron un método para crear un consejo de agentes de IA, compuesto por múltiples instancias de GPT-4 de OpenAI, que realizan intercambios coordinados e iterativos diseñados para alcanzar una respuesta consensuada. Un algoritmo facilitador facilita un proceso deliberativo cuando hay respuestas divergentes, resumiendo el razonamiento de cada respuesta y solicitando al Consejo que delibere y vuelva a responder la pregunta original.

   Cuando el consejo recibió 325 preguntas del USMLE disponibles públicamente, incluyendo aquellas centradas en ciencias biomédicas fundamentales, así como en diagnóstico y manejo clínico, el sistema logró respuestas consensuadas correctas el 97%, 93% y 94% de las veces para los Pasos 1, 2 CK y 3, respectivamente, superando a los modelos GPT-4 de instancia única. En los casos en que no hubo una respuesta unánime inicial, el Consejo de Deliberaciones de IA logró un consenso que resultó ser la respuesta correcta el 83% de las veces. En las preguntas que requerían deliberación, el Consejo corrigió más de la mitad (53%) de las respuestas incorrectas por mayoría.

   Los autores sugieren que la toma de decisiones colectiva entre IA puede mejorar la precisión y generar herramientas más fiables para la atención médica, donde la precisión es crucial. Sin embargo, señalan que este paradigma aún no se ha probado en escenarios clínicos reales.

   "Al demostrar que diversas perspectivas de la IA pueden refinar las respuestas, cuestionamos la idea de que la consistencia por sí sola define una 'buena' IA", afirman los autores. "En cambio, aceptar la variabilidad mediante el trabajo en equipo podría abrir nuevas posibilidades para la IA en la medicina y más allá".

   Yahya Shaikh afirma: "Nuestro estudio demuestra que cuando varias IA deliberan juntas, logran el mejor rendimiento histórico en los exámenes de licencia médica, con puntuaciones del 97%, 93% y 94% en los pasos 1 a 3, sin necesidad de capacitación especial ni acceso a datos médicos. Esto demuestra el poder de la colaboración y el diálogo entre sistemas de IA para obtener respuestas más precisas y fiables. Nuestro trabajo proporciona la primera evidencia clara de que los sistemas de IA pueden autocorregirse mediante un diálogo estructurado, con un rendimiento colectivo superior al de cualquier IA individual".

   "Este estudio no se trata de evaluar la capacidad de la IA para realizar el examen USMLE, la que enorgullecería a su madre, presumiría a su padre y acapararía titulares. En cambio, describimos un método que mejora la precisión al considerar la variabilidad natural de la respuesta de la IA como una fortaleza. Permite al sistema realizar varios intentos, comparar notas y autocorregirse, y debería integrarse en futuras herramientas educativas y, cuando corresponda, en la atención clínica", concluyen los investigadores.

Contador