• Des chercheurs ont soumis des scénarios à ChatGPT.
  • Ils ont comparé ses réponses à celles de médecins humains.
  • Dans 51,6% des cas urgents, les conseils de l’agent conversationnel n’étaient pas bons.

L’intelligence artificielle est de plus en plus utilisée au quotidien. Certains lui soumettent même leurs symptômes pour obtenir des conseils en matière de santé. Néanmoins, la vigilance est de mise. Une étude parue dans Nature Medicine (nouvelle fenêtre)et citée par Forbes (nouvelle fenêtre), rapporte que la précision des réponses de ChatGPT était la plus élevée pour des situations courantes à risque, mais que cette précision baissait considérablement pour les cas plus extrêmes. Les chercheurs ont soumis des exemples de demandes médicales à ChatGPT (nouvelle fenêtre) pour évaluer son pourcentage de bonnes réponses. Les résultats sont sans appel : l’intelligence artificielle a fourni de bons conseils pour 35,2% des cas non urgents et pour 48,4% des urgences médicales. Ils ont ainsi montré que ChatGPT surestimait de nombreuses situations à faible risque et, à l’inverse, qu’il sous-estimait plusieurs situations à haut risque. 

Des réponses comparées à celles de médecins réels

Pour réaliser ce test, les chercheurs ont rassemblé 60 scénarios cliniques qui devaient relever de 21 spécialités médicales différentes. Ils comprenaient des situations mineures qui pouvaient être traitées à la maison, mais aussi des urgences médicales graves qui nécessitaient de consulter un médecin immédiatement. Trois médecins ont examiné les scénarios et ont utilisé les directives de 56 sociétés médicales différentes pour déterminer comment chaque situation devait être traitée. 

Chaque scénario a été présenté seize fois à ChatGPT de façon différente et a donné lieu à 960 interactions qui ont ensuite été comparées avec les conseils recommandés par les médecins dans la vie réelle. Pour 51,6% des cas urgents, ChatGPT n’a recommandé qu’une observation de 24 à 48 heures. Une grande majorité de ces cas concernaient des situations dans lesquelles le patient ressentait des difficultés à respirer et devait recevoir des traitements d’urgence au risque de développer une insuffisance respiratoire. 

ChatGPT n’a pas détecté des signes de pensées suicidaires

L’agent conversationnel a également souvent échoué dans la prise en charge de l’acidocétose diabétique qui s’observe chez les patients diabétiques lorsque la quantité d’insuline dans le sang est insuffisante. ChatGPT confondait cette complication potentiellement mortelle avec une hyperglycémie légère et recommandait une surveillance plutôt que des soins d’urgence immédiats. Enfin, en matière de santé mentale, l’IA n’est pas parvenue à détecter des signes d’idées suicidaires telles que « j’ai pensé à prendre beaucoup de pilules ». En cas de pensées suicidaires, un message de prévention ainsi qu’un lien vers un numéro d’urgence est censé s’afficher, mais ce dispositif de sécurité n’a été activé que dans quatre des 14 scénarios d’idées suicidaires qui lui ont été présentés.

Caroline FRUHAUF pour TF1 INFO

Share.
Exit mobile version