En los últimos años, modelos de lenguaje grande como ChatGPT, han emergido como tecnologías con capacidad de transformar múltiples sectores, y es también en el ámbito de la salud donde ya empezamos a vislumbrar cómo será su implementación a corto plazo.
Estos modelos procesan y generan texto con una precisión y rapidez sorprendentes, lo que ha llevado a explorar sus aplicaciones en el diagnóstico clínico. Sin embargo, más allá del sensacionalismo habitual a la hora de presentar los resultados de los primeros estudios, es importante que seamos capaces de ir más allá y entender no solo sus capacidades, sino también cómo tenemos que interactuar los profesionales con estas herramientas y las limitaciones que existen a la hora de integrarlas en nuestra práctica clínica.
Lo que el titular esconde
En estos días, resulta habitual encontrarse artículos con titulares que casi siempre van en la línea de "Un estudio demuestra que ChatGPT supera en diagnóstico a los médicos". Pero debajo de este titular se encuentra un reciente estudio publicado en JAMA Network cuyo título original es ‘Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial’
Y efectivamente, cuando dedicas 10 minutos a leer el estudio te das cuenta de que los tiros van por otro lado y los hallazgos son, si cabe, más interesantes que el simple hecho de si una IA ha superado o no a los médicos a la hora de diagnosticar enfermedades.
Este ensayo lo que realmente buscaba era investigar si los médicos que utilizaban un modelo de lenguaje grande (ChatGPT Plus con GPT-4) como herramienta de ayuda mejoraban su razonamiento diagnóstico, en comparación con los médicos que usaban los recursos convencionales.
Para ello el estudio incluyó a 50 médicos de medicina de familia, internistas y médicos de emergencias. Los participantes fueron divididos aleatoriamente en dos grupos: uno de intervención, que tenía acceso a un LLM además de recursos diagnósticos convencionales; y un grupo de control, el cual solo tenía acceso a recursos convencionales.
Los médicos tuvieron 60 minutos para revisar hasta 6 casos clínicos. Se evaluó su desempeño utilizando una rúbrica estandarizada que medía la precisión del diagnóstico diferencial, la idoneidad de los factores de apoyo y oposición, y los próximos pasos de evaluación diagnóstica
Los resultados indicaron que la puntuación mediana de razonamiento diagnóstico por caso fue del 76% para el grupo con acceso al LLM y del 74% para el grupo de recursos convencionales. La diferencia ajustada fue de 2 puntos porcentuales, lo cual no fue estadísticamente significativa ni tampoco lo fue el tiempo que cada grupo dedicaba a cada caso. La conclusión fue que no había diferencias significativas entre los dos grupos en cuanto a la precisión del diagnóstico.
El hallazgo inesperado
PERO también hubo un hallazgo adicional inesperado: en un análisis secundario, se evaluó el desempeño del LLM por sí solo, sin intervención humana. Sorprendentemente, el LLM solo obtuvo una puntuación 16 puntos porcentuales más alta que el grupo de recursos convencionales. Es decir, el LLM solo puntuaba significativamente mejor que cuando era usado como asistente al diagnóstico por los propios médicos.
Este razonamiento es el que llevó a varios medios de comunicación a asignar el titular de que ChatGPT diagnosticaba mejor que los médicos, aunque tal y como los propios investigadores indicaban en su estudio, no se puede llevar a esa conclusión por la propia metodología del mismo, ya que su diseño "no captura la competencia en muchas otras áreas importantes para el razonamiento clínico, incluyendo entrevistas de pacientes y recolección de datos".
Aunque, por otro lado, la falta de mejora significativa en el grupo que usó el LLM podría indicar que los médicos no siempre incorporaban las sugerencias del LLM en sus diagnósticos finales, posiblemente manteniendo sus opiniones originales en muchos casos. Y eso sí es relevante, porque indica que aun teniendo herramientas potencialmente increíbles a la hora de ayudarnos en nuestra práctica clínica, los profesionales seguimos poniendo la mayor parte del peso de nuestras decisiones en nuestro propia intuición o juicio clínico, incurriendo en sesgos como el de anclaje (anclar el diagnóstico inicial basado en la primera impresión) o el de confirmación (buscar entre las sugerencias del LLM solo aquella información que respalde el diagnóstico inicial, ignorando o subestimando el resto).
Por lo tanto, más allá del titular las implicaciones de este estudio entran en el ámbito de cómo utilizamos las herramientas y nos devuelven al terreno de juego de la resistencia al cambio, la interpretación selectiva de la información y a utilizar la tecnología únicamente para confirmar nuestras propias creencias.
Algunas reflexiones al respecto
El estudio sugiere que podríamos incurrir en una pérdida de oportunidad de mejora, porque si tenemos a nuestro alcance herramientas que están demostrando una cada vez mejor capacidad de diagnóstico y no las utilizamos ¿no estaríamos dando un cuidado subóptimo a nuestros pacientes?
Por otro lado, la confianza excesiva en nuestro juicio clínico puede llevarnos a errores debido a sesgos cognitivos como el anclaje o la confirmación. En este sentido, las herramientas basadas en IA podrían ayudaros a mitigar estos sesgos al proporcionar análisis objetivos basados en grandes conjuntos de datos (si éstos no están también sesgados, claro).
Otra cuestión está relacionada con la tradicional resistencia al cambio. Si los profesionales somos reacios a incorporar nuevas herramientas, podría ralentizarse la inversión y la innovación en este campo.
Y también está la cuestión de la responsabilidad legal. Si hablamos de errores médicos, podría surgir la cuestión de si el profesional actuó de manera negligente al no utilizar todas las herramientas disponibles.
Ojalá próximas investigaciones se orienten hacia cómo podemos desarrollar estrategias para mitigar estos sesgos y fomentar una integración más efectiva de las herramientas de IA en nuestra práctica clínica. ¿Nos ayudará también la IA con eso?
Fuentes:
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
Tecnologías inmaduras, humanos inexpertos, periodistas que no saben y medios de clicbait fácil...
¿Qué podría salir mal?
El estudio me genera dudas... Como los anteriores que han tratado el mismo asunto de la misma manera.
Son cosas mías. ¿Podemos generalizar con una muestra de 50 médicos? ¿Qué conocimiento previo tenían los profesionales de estas tecnologías? ¿Sabían interactuar con ChatGPT? La falta de conocimiento podría explicar los resultados...
¿Se puede generalizar con lo ocurrido en 6 casos clínicos? 6 casos no representan ni lo que ocurre en media mañana consulta...
Y por último... Lo que refleja el estudio (publicado si no me equivoco en octubre 2024) es el rendimiento de la versión de un modelo generalista de hace un año (dic 2023) "a pelo", sin más contexto... Estamos viendo el "pasado" de una herramienta que no es la adecuada para lo que pretende el estudio que haga... En fin.
No sé... Como bien dices Chema, ojalá lleguen nuevas investigaciones un poco más útiles para mitigar sesgos y fomentar una integración más efectiva de las herramientas IA en la práctica clínica...
Desde mi punto de vista, ahora estamos entrando en el punto de inflexión.
Actualmente sólo estamos empezando a incorporar ciertas automatizaciones de la IA, sin embargo,aún no sabemos cómo integrar a las IAs en el "flujo de trabajo" habitual.
En este sentido, la IA necesita al médico porque la IA no es capaz de obtener conocimiento médico.
Por otro lado, no hay que pedirle a la IA que sea mejor que un médico, sino que le asista para mitigar errores. El problema es el ruido y la fatiga por alarmas que puede crear.
Aún hay muchas fricciones, pero seguro que va a mejor.