Chat GPT y atención médica: dos estudios que divergen
Chat GPT y atención médica
Introducción:
La inteligencia artificial (IA) está revolucionando diversos campos, y la atención médica no es una excepción. En este artículo, exploraremos la evaluación de dos modelos de lenguaje, GPT-3.5 y GPT-4, para satisfacer las necesidades de información clínica en la práctica médica. Estos modelos prometen mejorar la toma de decisiones y proporcionar evidencia a pedido en situaciones donde la información es escasa. Veamos qué revela la evaluación realizada por un equipo de expertos en medicina y tecnología.
Desarrollo:
El estudio elaborado por varios autores de prestigoas univeresidades e los EUA tambien es respaldado por Stanford Healthcare y el Mark and Debra Leslie Endowment for AI in Healthcare . Las universidades que participaron en el estudio son la Universidad de California San Francisco (Departamento de Radiología e Imágenes Biomédicas) y la Universidad de Stanford (IA centrada en el ser humano de Stanford) . y se basó en la evaluación de la capacidad de GPT-3.5 y GPT-4 para responder preguntas enviadas a un servicio de un chat web. Se seleccionaron 154 preguntas que representaban las necesidades de información médica y se evaluó la seguridad y concordancia de las respuestas de los modelos de lenguaje. Los resultados mostraron que las respuestas en su mayoría estaban libres de daños o riesgos manifiestos para los pacientes.
Sin embargo, también se observó que menos del 20% de las respuestas coincidían con las respuestas previamente conocidas de un servicio de consulta informática. Esto indica que, si bien los modelos de lenguaje pueden proporcionar respuestas seguras, a menudo no satisfacen completamente la necesidad de información específica de una pregunta.
El estudio también destacó que las respuestas de los modelos de lenguaje a veces contenían alucinaciones o referencias incorrectas, lo que generó cierta preocupación entre los médicos evaluadores. Esto plantea la necesidad de una mayor investigación y calibración de los modelos para garantizar respuestas más precisas y confiables.
Análisis de valoraciones médicas
El análisis de valoraciones médicas realizado en el estudio se centró en recopilar y tabular las respuestas de GPT-3.5 y GPT-4 a 66 preguntas representativas de las necesidades de información médica. Las respuestas se evaluaron en términos de seguridad y concordancia.
Para evaluar la seguridad, se determinó si las respuestas estaban libres de daños o riesgos manifiestos para los pacientes. En cuanto a la concordancia, se compararon las respuestas de los modelos de lenguaje con los informes previos de un servicio de consulta informática interno.
Las respuestas se clasificaron en tres categorías: «De acuerdo», «En desacuerdo» o «No se puede evaluar». Además, se permitió un comentario opcional para cada pregunta evaluada, lo que permitió un análisis cualitativo de las razones detrás de las respuestas.
El análisis de las valoraciones médicas se realizó mediante la recopilación de los datos en una hoja de cálculo agregada. Se registraron el número de pregunta, el revisor, la evaluación de seguridad y concordancia de GPT-3.5, así como la evaluación de seguridad y concordancia de GPT-4. También se registraron los comentarios opcionales.
Este análisis permitió obtener una visión general de cómo GPT-3.5 y GPT-4 respondieron a las preguntas y cómo se compararon entre sí en términos de seguridad y concordancia. Estos datos son fundamentales para comprender la capacidad de los modelos de lenguaje en la toma de decisiones clínicas y la prestación de atención médica.
En resumen, el análisis de valoraciones médicas se basó en la evaluación de seguridad y concordancia de las respuestas de GPT-3.5 y GPT-4 a 66 preguntas representativas. Esto proporcionó información sobre la fiabilidad y precisión de los modelos de lenguaje en el contexto de la atención médica.
Discusión
la discusión del artículo se centra en analizar los hallazgos y conclusiones obtenidos a partir de la evaluación de los modelos de lenguaje GPT-3.5 y GPT-4 en el contexto de la atención médica.
En primer lugar, se destaca que las respuestas de ambos modelos estuvieron en su mayoría libres de daños o riesgos manifiestos para los pacientes. Esto indica que los modelos de lenguaje pueden proporcionar respuestas seguras y confiables en el ámbito médico.
Sin embargo, se observó que menos del 20% de las respuestas coincidían con las respuestas previamente conocidas de un servicio de consulta informática. Esto sugiere que los modelos de lenguaje no siempre satisfacen completamente la necesidad de información específica de una pregunta, lo que plantea la necesidad de una mayor investigación y calibración de los modelos para mejorar su precisión y relevancia en el contexto clínico.
Además, se menciona que las respuestas de los modelos de lenguaje a veces contenían alucinaciones o referencias incorrectas, lo que generó preocupación entre los médicos evaluadores. Esto resalta la importancia de abordar y mitigar estos errores para garantizar respuestas más precisas y confiables.
Se concluye que si bien los modelos de lenguaje como GPT-3.5 y GPT-4 tienen un potencial significativo para mejorar la toma de decisiones clínicas y proporcionar información a pedido, aún existen desafíos y limitaciones que deben abordarse. Es necesario realizar más investigaciones y mejoras en la ingeniería, calibración y personalización de los modelos para optimizar su utilidad en entornos de atención médica.
En resumen, la discusión del artículo destaca los aspectos positivos y las limitaciones de los modelos de lenguaje GPT-3.5 y GPT-4 en la atención médica, y enfatiza la necesidad de continuar investigando y mejorando estos modelos para maximizar su eficacia y seguridad en la práctica clínica.
Conclusiones del primer estudio :
En conclusión, cuando hablamos de Chat GPT y atención médica, tenemos que decir que los modelos de lenguaje como GPT-3.5 y GPT-4 tienen un potencial significativo para satisfacer las necesidades de información en la atención médica. Si bien pueden proporcionar respuestas seguras y creíbles, es importante tener en cuenta sus limitaciones, como la falta de concordancia con respuestas previas y la posibilidad de alucinación. Pueden ver mi articulo previo sobre este tema en el presente enlace.
Se puede ver el artículo completo traducido en este enlace
Un segundo estudio: el robot de chatGPT atiende dudas mejor que los médicos
ChatGPT respondió mejor que médicos dudas de pacientes
El estudio tiene una serie de pros y contras que despiertan el debate sobre la atención médica personalizada.
La influencia de la Inteligencia Artificial en servicio de los chatbots o atención al cliente cada vez se específica más, y con ello incluso ha llegado esta nueva herramienta a funcionar en la medicina.
Según un estudio publicado en la revista JAMA Internal Medicine, se explica cómo el chatbot de OpenAI fue utilizado como asistente para proporcionar respuestas a preguntas de pacientes, siendo preferida en lugar de los médicos el 79% de las veces. ChatGPT también tuvo respuestas calificadas cómo de «buena o muy buena calidad», mismas que se consideraron «más empáticas» que en caso de las hechas por los médicos.
Hay resultados positivos para el uso de ChatGPT en la medicina
El estudio estuvo dirigido por John W. Ayers , Ph.D., del Instituto Qualcomm de la Universidad de California en San Diego, que analiza el papel que pueden tener los asistentes de IA en la medicina, pudiendo mejorar la atención médica en gran medida, según Ayers.
El estudio se centró en responder la pregunta «¿Puede ChatGPT responder con precisión preguntas que los pacientes envían a sus médicos?».
Si la respuesta era afirmativa, dice Ayers, los modelos de IA se pueden integrar en los sistemas de salud para mejorar así las respuestas que los médicos envían a las preguntas de sus pacientes, y al mismo tiempo, aliviar la carga de trabajo de los doctores.
Según Davey Smith, coautor del estudio, «ChatGPT podría aprobar un examen de licencia médica» y añade que «responder directamente a las preguntas de los pacientes con precisión y empatía es un juego de pelota diferente.»
Metodología del estudio
Para poder realizar la investigación, el equipo decidió utilizar una plataforma donde millones de paciente publican sus consultas médicas que son respondidas por doctores: AskDocs, una sección completa de Reddit con más de 400 mil miembros hacen sus preguntas y profesionales de salud verificados contestan.
El equipo tomó aleatoriamente 195 intercambios donde un médico verificado respondió a una pregunta pública. Después, se le proporcionó la pregunta original a ChatGPT, y se le pidió escribir una respuesta.
Un panel de tres profesionales de la salud con licencia evaluó tanto las preguntas y respuestas correspondientes, desconociendo el origen de la respuesta, si era de médico o de ChatGPT, comparándolas con parámetros de calidad de información, empatía y cuál era la que preferían de las dos.
El resultado fue que estos evaluadores prefirieron un 79% de las veces las respuestas de ChatGPT en contra de las de los médicos, ya que el chatbot respondía con información matizada y precisa que en muchas ocasiones abordaba más aspectos de las preguntas del paciente que las respuestas del médico.
Las respuestas de la IA también tuvieron calificaciones «significativamente más altas» en calidad que las respuestas de los médicos: «buena o muy buena calidad» fueron 3.6 veces más altas para ChatGPT que para los médicos (22.1% para doctores y 78.5% para el chatbot). También las respuestas fueron más empáticas, 9.8 veces más altas para ChatGPT que para los médicos.
Hay algunas situaciones que los médicos controlan mejor
Los investigadores que participaron en el estudio detallan que aunque se pudo enfrentar a ChatGPT con los médicos, no representa una solución definitiva para descartar por completo a los doctores, sino que estos pueden aprovechar al chatbot para tener una atención mejor y empática.
Con estos resultados, dice Christopher Longhurst, director médico y director digital de UC San Diego Health, se pueden redactar de forma eficiente con ChatGPT consejos médicos personalizados de alta calidad para que los revisen los doctores, un proceso que ya se está implementando en el UCSD Health.
Resultados de éste segundo estudio
El estudio ha demostrado resultados prometedores en el uso de asistentes de inteligencia artificial para las preguntas de los pacientes, pero los autores aseguran que «es crucial mayor investigación antes de que se puedan sacar conclusiones definitivas con respecto a su efecto potencial en entornos clínicos«.
Consideran que a pesar de las limitaciones de este estudio y la frecuente sobrevaloración de las nuevas tecnologías, estudiar la adición de asistentes de inteligencia artificial en los flujos de trabajo de mensajes de pacientes es prometedor con el potencial de mejorar los resultados tanto del médico como del paciente.
El uso de chatbots requiere mayor exploración en entornos clínicos, como en el redactado de respuestas que luego los médicos podrían editar. Además, los ensayos aleatorizados podrían evaluar más a fondo si el uso de asistentes de inteligencia artificial podrían mejorar las respuestas, reducir el agotamiento de los médicos y mejorar los resultados de los pacientes.
El presente post Chat GPT y atención médica ha sido compilado y resumido por el Dr. Juan Ignacio Barrios . El Dr. Barrios Arce es Médico especialista en informática médica es Master en Business intelligent y en Big Data y ciencia de datos. Cursa el máster en inteligencia artificial y aplica modelos en este campo, en sus labores docentes en la cátedra de informática médica de la Universidad de Barcelona donde es profesor visitante. También es facult member de la Universidad de Rochester de los Estados Unidos de Norteamérica
One Response
Muy interesante los dos estudios, en donde se puede concluir varias cosas:
1. Es importante seguir investigando para madurar más la inteligencia artificial y que la misma sea un apoyo más para los profesionales en salud de realizar una mejor atención a sus pacientes
2. Que la inteligencia artificial como un instrumento más de consulta para el profesional en salud que le permita poder tener una mejor conclusión sobre el diagnostico y la terapeutica a seguir con los casos más complejos.