Denis Parra, académico del Departamento de Ciencia de la Computación UC e investigador del Instituto Milenio en Ingeniería e Inteligencia Artificial (IHealth), Instituto Milenio Fundamentos de los datos (IMFD) y del Centro Nacional de Inteligencia Artificial (CENIA), señaló que el principal desafío de estos sistemas es reconocer cuando no tienen información suficiente para responder.
Los chatbots de Inteligencia Artificial Generativa, como ChatGPT y Gemini, se han transformado en el consultor de cabecera para millones de personas en temas de salud. Por ejemplo en Latinoamérica, Chat GPT fue la aplicación más utilizada en 2025 para consultar síntomas, desplazando incluso a sitios web de centros médicos, según el Instituto Tecnológico de Buenos Aires. Sin embargo, dos estudios publicados llegan a una conclusión preocupante: la información que entregan es inexacta e incompleta y además estas herramientas responden con seguridad incluso cuando se equivocan.
“Uno de los grandes desafíos de estos sistemas es que puedan distinguir cuando realmente no tienen información suficiente para responder. Hoy eso no está resuelto”, señaló Denis Parra.
En este contexto, investigaciones recientes analizaron cinco chatbots populares: Gemini, DeepSeek, Meta AI, ChatGPT y Grok, siendo evaluados 21 modelos avanzados en total, frente a preguntas médicas comunes. La conclusión principal es que estos sistemas utilizan información de foros y redes sociales. En cuanto al contenido científico que emplean, se limita a estudios gratuitos, representando el 30% al 50% de las investigaciones publicadas. Por esta razón, al carecer de fuentes clínicas robustas, los modelos buscan patrones estadísticos y generan respuestas coherentes, aunque no necesariamente correctas o adecuadas.
Por otra parte, una investigación publicada en JAMA Network Open, realizada por investigadores de la red de hospitales Mass General Brigham asociada a Hardvard, refuerza este punto: los chatbots aciertan en más del 90% de los diagnósticos cuando disponen de información clínica completa, pero muestran deficiencias importantes al trabajar con datos limitados o al intentar hacer un “diagnóstico diferencial”.
Los modelos más recientes superan a los más antiguos, lo que demuestra que el campo sigue mejorando, aunque aún no está listo para tomar decisiones médicas autónomas.
Para el académico e investigador, Denis Parra, una diferencia que hay que tomar en cuenta está en cómo razona un médico o médica versus cómo opera un modelo de lenguaje: “Los médicos saben cuándo detenerse, pedir más información y no apresurarse. Los modelos de lenguaje, en cambio, no tienen ese proceso deliberativo, porque su entrenamiento está orientado a siempre producir una salida”
Revisa la nota emitida por el medio en el siguiente enlace: https://www.ing.uc.cl/wp-content/uploads/2026/04/1504202607.jpg
