Diagnostic médical : pourquoi l’IA se trompe encore

Les intelligences artificielles progressent en médecine, mais une étude révèle leurs limites dans le diagnostic médical précoce. Une supervision humaine semble nécessaire pour éviter les erreurs.

witsarut sakorn / istock

Publié le 14.04.2026 à 14h25
Commenter

L'ESSENTIEL

Les IA médicales échouent encore souvent au diagnostic précoce.
Elles sont performantes en fin d’analyse mais faibles au départ.
La supervision humaine reste indispensable.

Les modèles de langage comme ChatGPT, Claude ou Gemini fascinent par leurs performances. Mais peuvent-ils vraiment remplacer un médecin face à un patient ? Une nouvelle étude, publiée le 13 avril dans JAMA Network Open, tempère fortement cette hypothèse : malgré des progrès majeurs, ces outils d’intelligence artificielle (IA) échouent encore massivement dans une étape clé du raisonnement clinique.

Des IA à la peine pour les premiers symptômes

Selon les chercheurs du réseau hospitalier américain Mass General Brigham, les modèles d’IA échouent à proposer un diagnostic différentiel pertinent dans plus de 80 % des cas. Cette étape consiste à distinguer plusieurs maladies possibles présentant des symptômes similaires. Elle est essentielle pour orienter les examens et éviter les erreurs. Marc Succi, co-auteur de l’étude, souligne auprès d’Euronews : "Malgré des améliorations continues, les modèles de langage prêts à l’emploi ne sont pas prêts pour une utilisation clinique sans supervision." Il rappelle que cette capacité relève de ce qu’il appelle "l’art de la médecine".

Pour mener leurs travaux, les scientifiques ont analysé 21 modèles, dont GPT, Claude, Gemini ou Grok, à partir de 29 cas cliniques simulés via l’outil PrIME-LLM. Résultat : les IA obtiennent de bons scores pour établir un diagnostic final, avec des taux de réussite allant de 60 % à plus de 90 %. Mais cette performance cache une limite. Comme l’explique Arya Rao, co-autrice, "ces modèles sont excellents pour nommer un diagnostic final lorsque toutes les données sont disponibles, mais ils peinent au début d’un cas, quand les informations sont limitées." Autrement dit, ils réussissent mieux à confirmer qu’à explorer.

Vers une collaboration homme-machine ?

Même les modèles les plus avancés, comme GPT-5, Gemini 3.0 ou Claude 4.5, restent dépendants des données fournies et peinent à gérer les incertitudes. Les chercheurs insistent donc sur la nécessité d’avoir toujours un "humain dans la boucle" pour superviser leur utilisation. Une position partagée par Susana Manso García, experte en santé numérique : "L’étude insiste sur le fait qu’ils ne doivent pas être utilisés pour prendre des décisions cliniques sans supervision." La spécialiste recommande au public de rester vigilant et de consulter un professionnel en cas de doute.

Faut-il pour autant que le grand public abandonne ces outils ? Non, selon les auteurs. Utilisées comme aides à la décision, les IA pourraient en effet améliorer la qualité des soins, notamment en analysant rapidement de grandes quantités de données. Mais pour l’instant, elles ne remplacent pas le raisonnement humain en matière de médecine.