Según el trabajo, los modelos de IA estudiados alcanzaron tasas de acierto del 80 al 90%, frente al 60 al 70% registrado por los motores de búsqueda en sus primeros 20 resultados.
El estudio comparó siete modelos de IA con cuatro buscadores
Publicado en la revista NPJ Digital Medicine del grupo Nature, el análisis evaluó siete modelos de IA —entre ellos ChatGPT, LLaMA3 y el especializado MedLLaMA— frente a cuatro buscadores tradicionales. La comparación se basó en una batería de preguntas médicas reales, formuladas por usuarios comunes.
Errores comunes y los riesgos del exceso de confianza
Pese a su alto nivel de aciertos, los autores advierten sobre los riesgos del uso indiscriminado de IA. Las llamadas “alucinaciones” son respuestas erróneas expresadas con gran seguridad, lo que puede inducir a errores graves, especialmente cuando se trata de salud.
Los errores se clasificaron en tres categorías:
- Contradicciones del consenso médico (los más graves).
- Malinterpretaciones de la pregunta por falta de contexto.
- Respuestas vagas o imprecisas, sin utilidad práctica.
- La formulación de la pregunta, clave para evitar errores
Juan Carlos Pichel, uno de los autores, subraya la importancia de cómo se formula una consulta: “Uno de los mayores riesgos es que la IA interprete mal la pregunta y dé consejos erróneos”.
Por su parte, el catedrático David Losada señaló que una solución viable es integrar los resultados de los buscadores tradicionales mediante técnicas de generación aumentada por recuperación, para enriquecer las respuestas de los sistemas inteligentes.