El estudio comparó siete modelos de IA con cuatro buscadores
Publicado en la revista NPJ Digital Medicine del grupo Nature, el análisis evaluó siete modelos de IA —entre ellos ChatGPT, LLaMA3 y el especializado MedLLaMA— frente a cuatro buscadores tradicionales. La comparación se basó en una batería de preguntas médicas reales, formuladas por usuarios comunes.
Errores comunes y los riesgos del exceso de confianza
Pese a su alto nivel de aciertos, los autores advierten sobre los riesgos del uso indiscriminado de IA. Las llamadas “alucinaciones” son respuestas erróneas expresadas con gran seguridad, lo que puede inducir a errores graves, especialmente cuando se trata de salud.
Los errores se clasificaron en tres categorías:
- Contradicciones del consenso médico (los más graves).
- Malinterpretaciones de la pregunta por falta de contexto.
- Respuestas vagas o imprecisas, sin utilidad práctica.
- La formulación de la pregunta, clave para evitar errores
Juan Carlos Pichel, uno de los autores, subraya la importancia de cómo se formula una consulta: “Uno de los mayores riesgos es que la IA interprete mal la pregunta y dé consejos erróneos”.
Por su parte, el catedrático David Losada señaló que una solución viable es integrar los resultados de los buscadores tradicionales mediante técnicas de generación aumentada por recuperación, para enriquecer las respuestas de los sistemas inteligentes.