salud inteligencia artificial

Evaluación de la utilidad de ChatGPT en todo el flujo de trabajo clínico: estudio de desarrollo y usabilidad

Blog Caidas Hospital Inicio Medicina Seguridad del Paciente

Antecedentes: Los chatbots de inteligencia artificial basados ​​en modelos de lenguaje grande (LLM) dirigen el poder de grandes conjuntos de datos de entrenamiento hacia tareas sucesivas y relacionadas en lugar de tareas de una sola pregunta, para las cuales la inteligencia artificial ya logra un rendimiento impresionante. Aún no se ha evaluado la capacidad de los LLM para ayudar en todo el alcance del razonamiento clínico iterativo mediante indicaciones sucesivas, actuando de hecho como médicos artificiales.

Objetivo: Este estudio tuvo como objetivo evaluar la capacidad de ChatGPT para respaldar continuamente las decisiones clínicas a través de su desempeño en viñetas clínicas estandarizadas.

Métodos: Ingresamos las 36 viñetas clínicas publicadas del Manual clínico de Merck Sharpe & Dohme (MSD) en ChatGPT y comparamos su precisión en diagnósticos diferenciales, pruebas de diagnóstico, diagnóstico final y manejo según la edad, el sexo y la agudeza del caso del paciente. La precisión se midió mediante la proporción de respuestas correctas a las preguntas planteadas dentro de las viñetas clínicas probadas, según lo calcularon los evaluadores humanos. Además, realizamos una regresión lineal para evaluar los factores que contribuyen al desempeño de ChatGPT en tareas clínicas.

Resultados: ChatGPT logró una precisión general del 71,7 % (IC del 95 %: 69,3 %-74,1 %) en las 36 viñetas clínicas. El LLM demostró el rendimiento más alto en la realización de un diagnóstico final con una precisión del 76,9% (IC del 95%: 67,8%-86,1%) y el rendimiento más bajo en la generación de un diagnóstico diferencial inicial con una precisión del 60,3% (IC del 95%: 54,2%- 66,6%). En comparación con responder preguntas sobre conocimientos médicos generales, ChatGPT demostró un rendimiento inferior en los tipos de preguntas de diagnóstico diferencial (β = -15,8 %; P < 0,001) y gestión clínica (β = -7,4 %; P = 0,02).

Conclusiones: ChatGPT logra una precisión impresionante en la toma de decisiones clínicas, con una fuerza cada vez mayor a medida que obtiene más información clínica a su disposición. En particular, ChatGPT demuestra la mayor precisión en las tareas de diagnóstico final en comparación con el diagnóstico inicial. Las limitaciones incluyen posibles alucinaciones del modelo y la composición poco clara del conjunto de datos de entrenamiento de ChatGPT.

Palabras clave: IA; ChatGPT; GPT; Transformador generativo preentrenado; LLM; exactitud; inteligencia artificial; chatbot; apoyo a las decisiones clínicas; viñetas clínicas; Toma de decisiones; desarrollo; grandes modelos de lenguaje; usabilidad; utilidad.

Referencia: Rao A, Pang M, Kim J, Kamineni M, Lie W, Prasad AK, Landman A, Dreyer K, Succi MD. Assessing the Utility of ChatGPT Throughout the Entire Clinical Workflow: Development and Usability Study. J Med Internet Res. 2023 Aug 22;25:e48659. doi: 10.2196/48659. PMID: 37606976; PMCID: PMC10481210.

Compartir en

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *