Los chatbots con IA son peores que los motores de búsqueda de asesoramiento médico

Existe una clara brecha entre el conocimiento médico teórico de los grandes modelos de lengua (LLM) y su utilidad destreza para los pacientes, según no un nuevo estudio del Oxford Internet Institute y del Área Nuffield de Ciencias de la Vigor de Atención Primaria de la Universidad de Oxford. En la investigación, realizada en colaboración con MLCommons y otras instituciones, participaron 1.298 personas en el Reino Unido.

En el estudio, se pidió a un colección que utilizara LLM como GPT-4o, Vehemencia 3 y Command R para evaluar síntomas de sanidad y sugerir cursos de bono, mientras que un colección de control se basó en sus métodos habituales, como motores de búsqueda o su propio conocimiento.

Los resultados mostraron que el colección que utilizó herramientas de IA generativa (genAI) no obtuvo mejores resultados que el colección de control al evaluar la aprieto de una afección. Igualmente fueron peores a la hora de identificar la afección médica correcta, según El Registro.

Source link