Vertrouwen artsen te veel op kunstmatige intelligentie? Wetenschappelijke studies luiden de alarmklok

Kunstmatige intelligentie vindt geleidelijk aan zijn weg naar dokterspraktijken en ziekenhuizen. Het helpt bij het interpreteren van röntgenfoto’s, het opsporen van tumoren op huidbeelden of het voorspellen van het verloop van bepaalde ziekten. Velen zien dit als een revolutie die menselijke fouten kan verminderen en diagnoses kan versnellen. Toch komen verschillende recente wetenschappelijke studies tot een veel genuanceerder beeld. Wanneer AI zich vergist, hebben artsen die er gebruik van maken de neiging om de aanbevelingen te volgen zonder ze in twijfel te trekken, soms ten koste van de patiënt. Dit fenomeen heeft een naam: automatiseringsvertekening. En het zou een echt volksgezondheidsprobleem kunnen worden.

De opkomst van kunstmatige intelligentie in de medische diagnostiek

kunstmatige intelligentie

De afgelopen tien jaar hebben deep learning-algoritmen spectaculaire vooruitgang geboekt op het gebied van medische beeldvorming. In 2017 presenteerde een team onder leiding van Pranav Rajpurkar aan de Stanford-universiteit CheXNet, een neuraal netwerk dat longontsteking kan detecteren op thoraxfoto’s. De auteurs beweerden dat hun systeem een nauwkeurigheid bereikte die vergelijkbaar was met die van ervaren radiologen, hoewel deze bewering later werd betwist door andere onderzoekers die wezen op methodologische beperkingen in de vergelijking. Dit werk, dat in de vorm van een preprint werd verspreid, betekende niettemin een keerpunt in de perceptie van medische AI.

Sindsdien zijn de toepassingen in aantal toegenomen. Algoritmen helpen nu dermatologen bij het opsporen van melanomen, oogartsen bij het diagnosticeren van diabetische retinopathie, en cardiologen bij het interpreteren van elektrocardiogrammen. De Amerikaanse Food and Drug Administration heeft overigens meer dan 900 medische hulpmiddelen met kunstmatige intelligentie goedgekeurd.

Deze opmars is gebaseerd op een aantrekkelijke belofte: door menselijke expertise te combineren met de rekenkracht van machines zouden betere resultaten worden behaald dan wanneer beide afzonderlijk worden ingezet. De wetenschappelijke realiteit begint deze hypothese echter ernstig te nuanceren.

De automatiseringsvertekening, een goed gedocumenteerde cognitieve valkuil

De automatiseringsbias verwijst naar de neiging van mensen om overmatig te vertrouwen op de aanbevelingen van een geautomatiseerd systeem, zelfs wanneer die aanbevelingen onjuist zijn. Dit concept is niet nieuw. Onderzoeker Raja Parasuraman en zijn collega’s bestudeerden het al in de jaren 1990, met name op het gebied van de luchtvaart en de luchtverkeersleiding. Maar de toepassing ervan in de geneeskunde roept bijzondere zorgen op.

Concreet betekent dit dat een arts die geconfronteerd wordt met het advies van een AI onbewust zijn waakzaamheid kan laten verslappen.Hij besteedt dan minder aandacht aan zijn eigen klinische observaties en vertrouwt meer op de suggestie van het algoritme. Dit mechanisme is des te verraderlijker omdat het onbewust werkt: de arts beseft niet altijd dat hij zijn oordeel aanpast aan de machine.

Het probleem wordt kritiek wanneer de AI een fout maakt. Want geen enkel algoritme is onfeilbaar. Zelfs de best presterende systemen vertonen niet te verwaarlozen foutpercentages, met name bij atypische gevallen of bij populaties die ondervertegenwoordigd zijn in hun trainingsgegevens.

kunstmatige intelligentie

Studies die de omvang van het probleem meten

In 2021 publiceerde een team onder leiding van Susanne Gaube, verbonden aan het University College London en het Massachusetts Institute of Technology, een onthullende studie in het tijdschrift npj Digital Medicine. De onderzoekers vroegen artsen en niet-artsen om thoraxfoto’s te beoordelen.

De truc van het experiment bestond erin dezelfde diagnostische aanbevelingen nu eens aan kunstmatige intelligentie, nu eens aan een menselijke expert toe te schrijven.

De resultaten brachten een opvallende asymmetrie aan het licht. Artsen lieten zich meer beïnvloeden door de aanbevelingen wanneer ze dachten dat deze afkomstig waren van een AI, zelfs wanneer deze aanbevelingen onjuist waren. Omgekeerd hechtten niet-artsen meer waarde aan adviezen die aan een menselijke expert werden toegeschreven. Dit resultaat suggereert dat artsen een specifieke vorm van eerbied hebben ontwikkeld ten opzichte van algoritmische systemen, een vertrouwen dat verder gaat dan het vertrouwen dat ze in hun collega’s stellen.

Bovendien onderzocht een studie die in 2020 door Philipp Tschandl en zijn collega’s in Nature Medicine werd gepubliceerd, de samenwerking tussen mens en AI in de dermatologie. De onderzoekers toonden aan dat wanneer dermatologen advies van een algoritme kregen over huidlaesies, hun algehele prestaties alleen significant verbeterden als de AI zeer nauwkeurig was. Zodra het algoritme een matig foutenpercentage vertoonde, verdween het voordeel van het mens-machine-duo, of keerde het zelfs om.

Waarom minder ervaren artsen kwetsbaarder lijken

Verschillende studies komen tot een conclusie die aandacht verdient: de automatiseringsbias zou artsen aan het begin van hun carrière meer kunnen treffen. Deze bevinding, die nog verkennend is, lijkt misschien contra-intuïtief. Je zou denken dat jonge artsen, die meer vertrouwd zijn met digitale technologieën, een kritischer blik zouden werpen op de tools van AI.

In werkelijkheid is het juist hun gebrek aan klinische ervaring dat hen afhankelijker zou maken van algoritmische suggesties. Een ervaren arts beschikt over een uitgebreid repertoire van gevallen die hij in de loop der jaren is tegengekomen. Hij kan dus gemakkelijker een inconsistentie opmerken tussen de suggestie van de AI en zijn eigen klinische intuïtie. Een coassistent of een jonge arts heeft daarentegen deze empirische kennisbasis nog niet opgebouwd en neigt er van nature toe te vertrouwen op de beslissingsondersteunende tools die hem ter beschikking staan.

Deze constatering roept een fundamentele vraag op voor de medische opleiding. Als toekomstige artsen al tijdens hun studie leren te vertrouwen op AI, zullen ze dan dezelfde diagnostische scherpzinnigheid ontwikkelen als hun voorgangers? Sommige onderzoekers vrezen een effect van geleidelijke uitholling van klinische vaardigheden, vergelijkbaar met wat cognitief onderzoek heeft aangetoond met betrekking tot gps en het oriëntatievermogen.

AI is niet neutraal, en haar fouten evenmin

Een ander aspect van het probleem heeft te maken met de aard zelf van de fouten die door kunstmatige intelligentie worden gemaakt. Deze fouten zijn niet willekeurig. Ze weerspiegelen de vooroordelen die aanwezig zijn in de gegevens die worden gebruikt om de algoritmen te trainen. Als een systeem voornamelijk leert op basis van röntgenfoto’s van patiënten uit een specifieke demografische groep, bestaat het risico dat het minder goed functioneert bij patiënten uit andere groepen.

In 2019 publiceerden Ziad Obermeyer en zijn collega’s in het tijdschrift Science een studie die een referentie is geworden op dit gebied. Hun analyse had betrekking op een algoritme dat in de Verenigde Staten op grote schaal wordt gebruikt om de gezondheidszorg te sturen. Dit algoritme gebruikte vroegere zorgkosten als indicator voor toekomstige medische behoeften. Zwarte patiënten hadden echter historisch gezien minder toegang tot zorg, en dus lagere uitgaven bij een gelijkwaardige gezondheidstoestand. Het resultaat: het algoritme kende hen systematisch een lagere zorgbehoefte toe dan in werkelijkheid het geval was. Dit was geen kwaadwillige intentie van de ontwerpers, maar een weerspiegeling van structurele ongelijkheden die in de gegevens waren ingebakken.

Wanneer een arts zonder kritische blik de aanbeveling van een dergelijk bevooroordeeld algoritme volgt, reproduceert en versterkt hij deze ongelijkheden in plaats van ze te corrigeren.

Hoe AI beter te integreren zonder in de val te lopen

Gezien deze bevindingen bevelen de onderzoekers niet aan om medische AI op te geven. Ze pleiten veeleer voor een meer doordachte integratie. In de recente wetenschappelijke literatuur komen verschillende concrete pistes naar voren.

De eerste bestaat erin artsen expliciet te scholen in automatiseringsvertekening. Vandaag de dag wordt dit onderwerp in de meeste medische opleidingen niet behandeld. Het louter besef dat deze cognitieve vertekening bestaat, helpt echter al om ertegen gewapend te zijn. Gerichte opleidingsprogramma’s zouden artsen al tijdens hun studie kunnen sensibiliseren.

De tweede mogelijkheid betreft het ontwerp van de AI-tools zelf. In plaats van één enkele, categorische diagnose weer te geven, stellen sommige onderzoekers voor om een reeks mogelijkheden te presenteren, voorzien van betrouwbaarheidsniveaus. Deze benadering, ook wel ‘verklaarbare AI’ genoemd, moedigt de arts aan om kritisch te blijven en de suggestie van het algoritme te toetsen aan zijn eigen klinische redenering.

Ten slotte werken verschillende teams aan protocollen voor systematische verificatie. Het idee is om een stap in te voeren waarbij de arts eerst zijn eigen diagnose stelt alvorens het advies van de AI te raadplegen. Deze eenvoudige verandering in de volgorde van het besluitvormingsproces vermindert de invloed van automatiseringsvertekening aanzienlijk, zoals uit bepaalde voorlopige experimenten op het gebied van radiologie is gebleken.

Een kwestie van afgewogen vertrouwen

In wezen is het probleem niet dat artsen vertrouwen hebben in kunstmatige intelligentie. Het probleem is dat ze er een verkeerd afgewogen vertrouwen in hebben. Te veel vertrouwen wanneer de AI zich vergist, te weinig wanneer ze gelijk heeft en de arts twijfelt. Het vinden van het juiste evenwicht tussen menselijke expertise en algoritmische kracht is een van de grote uitdagingen voor de geneeskunde in de komende decennia.

kunstmatige intelligentie

L’intelligence artificielle s’installe progressivement dans les cabinets médicaux et les hôpitaux. Elle aide à lire des radiographies, à détecter des tumeurs sur des images de peau ou encore à prédire l’évolution de certaines maladies. Beaucoup y voient une révolution capable de réduire les erreurs humaines et d’accélérer les diagnostics. Pourtant, plusieurs études scientifiques récentes dressent un constat bien plus nuancé. Lorsque l’IA se trompe, les médecins qui l’utilisent ont tendance à suivre ses recommandations sans les remettre en question, parfois au détriment du patient. Ce phénomène porte un nom : le biais d’automatisation. Et il pourrait devenir un véritable problème de santé publique.

L’essor de l’intelligence artificielle dans le diagnostic médical

Depuis une dizaine d’années, les algorithmes d’apprentissage profond ont réalisé des progrès spectaculaires en imagerie médicale. En 2017, une équipe dirigée par Pranav Rajpurkar à l’université Stanford a présenté CheXNet, un réseau de neurones capable de détecter des pneumonies sur des radiographies thoraciques. Les auteurs affirmaient que leur système atteignait une précision comparable à celle de radiologues expérimentés, bien que cette revendication ait ensuite été discutée par d’autres chercheurs qui ont souligné des limites méthodologiques dans la comparaison. Ce travail, diffusé sous forme de preprint, a néanmoins marqué un tournant dans la perception de l’IA médicale.

Depuis, les applications se sont multipliées. Des algorithmes assistent désormais les dermatologues pour repérer des mélanomes, les ophtalmologues pour diagnostiquer des rétinopathies diabétiques, ou encore les cardiologues pour interpréter des électrocardiogrammes. La Food and Drug Administration américaine a d’ailleurs autorisé plus de 900 dispositifs médicaux intégrant de l’intelligence artificielle.

Cette montée en puissance repose sur une promesse séduisante : en combinant l’expertise humaine et la puissance de calcul des machines, on obtiendrait de meilleurs résultats que chacun séparément. Or, la réalité scientifique commence à nuancer sérieusement cette hypothèse.

Le biais d’automatisation, un piège cognitif bien documenté

Le biais d’automatisation désigne la tendance des êtres humains à faire excessivement confiance aux recommandations d’un système automatisé, même lorsque ces recommandations sont erronées. Ce concept n’est pas nouveau. Le chercheur Raja Parasuraman et ses collègues l’étudiaient déjà dans les années 1990, notamment dans les domaines de l’aviation et du contrôle aérien. Mais son application à la médecine soulève des inquiétudes particulières.

Concrètement, un médecin confronté à l’avis d’une IA peut inconsciemment relâcher sa vigilance. Il accorde alors moins d’attention à ses propres observations cliniques et se repose davantage sur la suggestion algorithmique. Ce mécanisme est d’autant plus insidieux qu’il opère de manière inconsciente : le praticien ne réalise pas toujours qu’il ajuste son jugement en fonction de la machine.

Le problème devient critique quand l’IA commet une erreur. Car aucun algorithme n’est infaillible. Même les systèmes les plus performants affichent des taux d’erreur non négligeables, en particulier face à des cas atypiques ou à des populations sous-représentées dans leurs données d’entraînement.

Des études qui mesurent l’ampleur du problème

En 2021, une équipe dirigée par Susanne Gaube, rattachée à l’University College London et au Massachusetts Institute of Technology, a publié une étude révélatrice dans la revue npj Digital Medicine. Les chercheurs ont demandé à des médecins et à des non-médecins d’évaluer des radiographies thoraciques. L’astuce de l’expérience consistait à attribuer les mêmes recommandations diagnostiques tantôt à une intelligence artificielle, tantôt à un expert humain.

Les résultats ont mis en évidence une asymétrie frappante. Les médecins se montraient davantage influencés par les recommandations lorsqu’ils les croyaient émises par une IA, y compris quand ces recommandations étaient incorrectes. À l’inverse, les non-médecins accordaient plus de poids aux avis attribués à un expert humain. Ce résultat suggère que les praticiens ont développé une forme de déférence spécifique envers les systèmes algorithmiques, une confiance qui dépasse celle qu’ils accordent à leurs pairs.

Par ailleurs, une étude publiée en 2020 par Philipp Tschandl et ses collègues dans Nature Medicine a examiné la collaboration humain-IA en dermatologie. Les chercheurs ont montré que lorsque des dermatologues recevaient l’avis d’un algorithme sur des lésions cutanées, leurs performances globales ne s’amélioraient significativement que si l’IA était très précise. Dès que l’algorithme affichait un taux d’erreur modéré, le bénéfice du duo humain-machine disparaissait, voire s’inversait.

Pourquoi les praticiens les moins expérimentés semblent plus vulnérables

Plusieurs travaux convergent sur un point qui mérite attention : le biais d’automatisation pourrait toucher davantage les praticiens en début de carrière. Ce constat, encore exploratoire, peut sembler contre-intuitif. On pourrait imaginer que les jeunes médecins, plus familiers avec les technologies numériques, adopteraient un regard plus critique sur les outils d’IA.

En réalité, c’est précisément leur manque d’expérience clinique qui les rendrait plus dépendants des suggestions algorithmiques. Un médecin chevronné dispose d’un vaste répertoire de cas rencontrés au fil des années. Il peut donc plus facilement repérer une incohérence entre la suggestion de l’IA et sa propre intuition clinique. Un interne ou un jeune praticien, en revanche, n’a pas encore construit cette base de connaissances empiriques et tend naturellement à s’appuyer sur les outils d’aide à la décision mis à sa disposition.

Ce constat pose une question fondamentale pour la formation médicale. Si les futurs médecins apprennent dès leurs études à s’appuyer sur l’IA, développeront-ils la même acuité diagnostique que leurs aînés ? Certains chercheurs redoutent un effet d’érosion progressive des compétences cliniques, comparable à ce que la recherche en sciences cognitives a documenté avec le GPS et le sens de l’orientation.

kunstmatige intelligentie

L’IA n’est pas neutre, ses erreurs non plus

Un autre aspect du problème tient à la nature même des erreurs commises par l’intelligence artificielle. Ces erreurs ne sont pas aléatoires. Elles reflètent les biais présents dans les données utilisées pour entraîner les algorithmes. Si un système apprend principalement à partir de radiographies de patients d’un groupe démographique précis, il risque de moins bien fonctionner sur des patients issus d’autres groupes.

En 2019, Ziad Obermeyer et ses collègues ont publié dans la revue Science une étude devenue une référence sur ce sujet. Leur analyse portait sur un algorithme largement utilisé aux États-Unis pour orienter les soins de santé. Cet algorithme utilisait les coûts de santé passés comme indicateur du besoin médical futur. Or, les patients noirs avaient historiquement un accès moindre aux soins, donc des dépenses plus faibles à état de santé équivalent. Résultat : l’algorithme leur attribuait systématiquement un niveau de besoin inférieur à la réalité. Ce n’était pas une intention malveillante de la part des concepteurs, mais le reflet d’inégalités structurelles encodées dans les données.

Quand un médecin suit sans recul la recommandation d’un tel algorithme biaisé, il reproduit et amplifie ces inégalités au lieu de les corriger. Le biais d’automatisation agit alors comme un multiplicateur de discriminations, ce qui rend la question éthique incontournable.

Comment mieux intégrer l’IA sans tomber dans le piège

Face à ces constats, les chercheurs ne recommandent pas d’abandonner l’IA médicale. Ils plaident plutôt pour une intégration plus réfléchie. Plusieurs pistes concrètes émergent dans la littérature scientifique récente.

La première consiste à former explicitement les médecins au biais d’automatisation. Aujourd’hui, la plupart des cursus médicaux n’abordent pas ce sujet. Or, le simple fait de connaître l’existence de ce biais cognitif aide à s’en prémunir. Des programmes de formation ciblés pourraient sensibiliser les praticiens dès leurs études.

La seconde piste porte sur la conception même des outils d’IA. Plutôt que d’afficher un diagnostic unique et catégorique, certains chercheurs suggèrent de présenter un éventail de possibilités assorties de niveaux de confiance. Cette approche, dite « IA explicable », encourage le médecin à conserver un regard critique et à confronter la suggestion algorithmique à son propre raisonnement clinique.

Enfin, plusieurs équipes travaillent sur des protocoles de vérification systématique. L’idée est d’imposer une étape où le médecin formule d’abord son propre diagnostic avant de consulter l’avis de l’IA. Ce simple changement d’ordre dans le processus décisionnel réduit considérablement l’influence du biais d’automatisation, comme l’ont montré certaines expériences préliminaires dans le domaine de la radiologie.

Une question de confiance calibrée

Au fond, le problème n’est pas que les médecins fassent confiance à l’intelligence artificielle. Le problème est qu’ils lui fassent une confiance mal calibrée. Trop de confiance quand l’IA se trompe, pas assez quand elle a raison et que le praticien doute. Trouver le juste équilibre entre expertise humaine et puissance algorithmique constitue l’un des grands défis de la médecine des prochaines décennies.