IA supera o iguala a humanos en test para ser médico en Chile

  • Dos estudios liderados por investigadores de nuestro centro demostraron que modelos de Inteligencia Artificial lograron altos puntajes en dos pruebas clave del área de la salud en Chile: el EUNACOM, que rinden los médicos para ejercer en el país, y el CONACEM, que certifica a los anestesiólogos.

¿Puede la inteligencia artificial responder como un médico en un examen de certificación profesional? Los modelos de lenguaje de gran escala (LLMs), un tipo de IA entrenado con grandes volúmenes de datos, como GPT-4, ya han mostrado buenos resultados en pruebas de este tipo en inglés. Pero su desempeño en español aún tenía escasa evidencia. Con este desafío en mente, investigadores del Centro Nacional de Inteligencia Artificial (CENIA), junto a profesionales de la medicina, lideraron dos estudios pioneros que evaluaron estas tecnologías en nuestro idioma, acercando su uso al contexto latinoamericano. 

Ambas investigaciones fueron publicadas en las revistas  BMC Medical Education y Applied Sciences y fueron realizadas por Fernando Altermatt (académico de Medicina UC y director del Centro Interdisciplinario de Manejo del Dolor), Andrés Neyem (académico de Ingeniería UC e investigador de CENIA), Nicolás Sumonte (ingeniero UC y doctorante afiliado a CENIA), Marcelo Mendoza (académico de Ingeniería UC, investigador de CENIA e IMFD), Ignacio Villagrán (académico de Ciencias de la Salud UC) y Héctor J. Lacassie (académico de Medicina UC).

Un modelo de IA que responde el EUNACOM

El primer estudio, titulado “Performance of single-agent and multi-agent language models in Spanish language medical competency exams” (BMC Medical Education), evaluó cómo el modelo de IA, GPT-4 respondía más de mil preguntas del EUNACOM:   el examen obligatorio para ejercer medicina en Chile y que abarca 21 especialidades médicas diferentes, desde medicina interna hasta cirugía.

¿Cómo lo hicieron? Los investigadores probaron dos estrategias para responder la prueba. La primera de ellas utiliza un solo modelo de IA, llamado agente único, el que responde cada pregunta del test directamente, como lo haría un estudiante. La segunda, en tanto, llamada multiagente, consiste en varios sistemas de IA que trabajan juntos, enfocándose cada modelo en una parte distinta del problema. Así, simulan un equipo de médicos con diferentes especialidades (cardiólogo, pediatra, etc.) que colaboran para ofrecer respuestas más completas y precisas.

¿Los resultados? El multiagente (la IA que simula colaboración médica grupal) logró un 89,97 % de respuestas correctas en el examen, superando a la mayoría de los modelos de IA individuales (agente único). Aunque algunos de estos últimos, también obtuvieron resultados sólidos: entre 86% y 87,67 %. “El mejor resultado del enfoque multiagente demuestra que cuando distintos modelos colaboran y asumen roles especializados, logran decisiones más precisas en casos complejos o propensos a errores”, explican los autores. “Esto podría transformar el uso de IA en medicina al simular el razonamiento clínico interdisciplinario de la práctica real”.

Sin embargo, advierten, esta precisión tiene un costo: mientras los modelos individuales responden en segundos con una sola consulta, los multiagente requieren en promedio 21 consultas y más de 3 minutos por pregunta, lo que podría limitar su escalabilidad en hospitales y universidades por tema de costos económicos en implementaciones masivas. Por eso, plantean usar modelos multiagente solo en simulaciones clínicas o casos complejos, y modelos individuales para enseñanza y preparación de exámenes, ya que son más rápidos y requieren menos recursos.

IA en el examen de anestesiología

El segundo estudio, “Evaluating the Performance of Large Language Models on the CONACEM Anesthesiology Certification Exam” (Applied Sciences), comparó el desempeño de nueve modelos de inteligencia artificial con el de anestesiólogos humanos en el examen oficial de certificación de la especialidad.

En esta prueba, el modelo GPT-o1 alcanzó un 88,7 % de respuestas correctas, a solo 1,3 puntos del mejor resultado humano (90 %), y superó por más de 28 puntos el promedio general obtenido por los estudiantes en el examen (60,64 %).

“La relevancia de estos resultados se magnifica al considerar la naturaleza del examen CONACEM: una evaluación que exige razonamiento clínico complejo, decisiones en situaciones críticas, farmacología avanzada y dominio del español médico especializado”, señalan los autores.

Aunque los modelos de IA  cerrados como GPT-o1 obtuvieron los mejores resultados, también destacó DeepSeek R1, un modelo de código abierto (libre acceso), lo que permitiría usarlo directamente en hospitales y universidades sin depender de servicios externos. “Esto es muy importante para lugares con pocos recursos o que deben proteger la privacidad de los datos médicos”, indican.

El análisis también mostró que las preguntas más difíciles para las personas también lo fueron para la IA. En particular, las que exigen razonamiento clínico complejo, aunque en algunas, —como las complicaciones de anestesia regional—los médicos humanos tuvieron consistentemente mejores resultados.

En conjunto, los estudios muestran que estos modelos de IA tienen gran potencial como asistentes educativos especializados, útiles para reforzar conceptos (por ejemplo, qué es una arritmia), preparar exámenes (como el EUNACOM), simular casos clínicos (ante situaciones de urgencia) y entregar retroalimentación inmediata (corrigiendo respuestas y explicando por qué están bien o mal). Sin embargo, los autores advierten que su implementación debe ser cuidadosa, estratégica y progresiva, siempre con supervisión humana experta, para asegurar la seguridad y eficacia en contextos clínicos.

Revisa las publicaciones aquí: 

  • Performance of single-agent and multi-agent language models in Spanish language medical competency exams
https://bmcmededuc.biomedcentral.com/articles/10.1186/s12909-025-07250-3
  • Evaluating the Performance of Large Language Models on the CONACEM Anesthesiology Certification Exam: A Comparison with Human Participants 
https://www.mdpi.com/2076-3417/15/11/6245
Noticias

Noticias Recientes