La inteligencia artificial podría ayudar a los médicos al completar el papeleo de memoria, pero no va a ser útil en la sala de emergencias en el corto plazo, muestra un estudio reciente.
El programa ChatGPT de OpenAI proporcionó conclusiones inconsistentes cuando se le presentaron casos simulados de pacientes con dolor en el pecho, informan los investigadores.
«ChatGPT no actuaba de manera consistente», dijo el investigador principal, el Dr. Thomas Heston, profesor asociado del Colegio de Medicina Elson S. Floyd de la Universidad Estatal de Washington.
«Con exactamente los mismos datos, ChatGPT daría una puntuación de riesgo bajo, y la próxima vez un riesgo intermedio, y en ocasiones, llegaría a dar un riesgo alto», dijo Heston en un comunicado de prensa de la universidad.
La IA tampoco funcionó tan bien como los métodos tradicionales que usan los médicos para solo el riesgo cardiaco de un paciente, según los hallazgos, publicados recientemente en la revista PLOS One.
Para el estudio, los investigadores alimentaron a ChatGPT con miles de casos simulados de pacientes con dolor cardíaco. Investigaciones anteriores mostraron que el programa de IA puede pasar exámenes médicos, por lo que se esperaba que fuera útil para responder a emergencias médicas.
Los dolores en el pecho son una queja común en la sala de emergencias, y los médicos deben evaluar rápidamente la urgencia de la afección de un paciente.
Los casos muy graves pueden ser fáciles de identificar a partir de los síntomas, pero los casos de menor riesgo pueden ser más complicados, dijo Heston. Puede ser difícil decidir si una persona debe permanecer en el hospital para observación o enviarla a casa.
Hoy en día, los médicos con frecuencia usan dos medidas para evaluar el riesgo cardiaco, llamadas TIMI y HEART, explicó Heston. Estas listas de verificación sirven como calculadoras que utilizan los síntomas, el historial de salud y la edad para determinar la enfermedad de un paciente cardíaco.
Por el contrario, una IA como ChatGPT puede evaluar miles de millones de variables rápidamente, lo que aparentemente significa que podría ser capaz de analizar una situación médica compleja de forma más rápida y exhaustiva.
Los investigadores crearon tres conjuntos de 10.000 casos simulados aleatorios. El primer conjunto contenía las siete variables utilizadas para la escala TIMI, el segundo las cinco variables utilizadas en el HEART y el tercero tenía un conjunto más complejo de 44 lecturas de salud aleatorias.
Cuando se le administraron los dos primeros conjuntos de datos, ChatGPT estuvo de acuerdo con las puntuaciones fijas de TIMI y HEART aproximadamente la mitad de las veces, 45% y 48% respectivamente.
En el último conjunto de datos, los investigadores analizaron los mismos casos cuatro veces y descubrieron que ChatGPT a menudo ni siquiera podía estar de acuerdo consigo mismo. La IA devolvió diferentes evaluaciones para los mismos casos el 44% de las veces.
Es probable que el problema se deba a la aleatoriedad incorporada en la versión actual del software ChatGPT, que le ayuda a variar sus respuestas para simular el lenguaje natural.
Tal aleatoriedad no es útil en el cuidado de la salud, donde las decisiones de tratamiento requieren una respuesta única y consistente.
«Encontramos que había mucha variación, y esa variación en el enfoque puede ser peligrosa», dijo Heston. «Puede ser una herramienta útil, pero creo que la tecnología va mucho más rápido de lo que entendemos, por lo que es de vital importancia que investiguemos mucho, especialmente en estas situaciones clínicas de alto riesgo».
A pesar de este estudio, Heston dijo que la IA tiene el potencial de ser realmente útil en la sala de emergencias.
Por ejemplo, todo el expediente médico de una persona podría incluirse en el programa, y podría proporcionar los datos más pertinentes sobre un paciente rápidamente en caso de emergencia, dijo Heston.
Los médicos también pueden pedir al programa que ofrezca varios diagnósticos posibles en casos difíciles y complejos.
«ChatGPT podría ser excelente para crear un diagnóstico diferencial y esa es probablemente una de sus mayores fortalezas», dijo Heston. «Si no sabes muy bien lo que le está pasando a un paciente, puedes pedirle que te dé los cinco diagnósticos principales y el razonamiento detrás de cada uno. Así que podría ser bueno para ayudarte a pensar en un problema, pero no es bueno para dar la respuesta».
Fuente: HealthDay News