
Google heeft niet alleen de algemene ai-chatbot Bard, maar sinds eind vorig jaar ook Med-Palm. Deze medische ai-vraagbaak slaagde kort geleden voor een officieel Amerikaans toelatingsexamen voor artsen. Toch is Med-Palm voorlopig geen vervanger voor menselijke artsen, concluderen onderzoekers in het blad Nature.
Med-Palm is een ai-bot voor medische onderwerpen. Hij werd specifiek getraind om de officiële US Medical Licensing Examination (USMLE) te behalen. In de VS moeten alle artsen in opleiding dit driedelige schriftelijke examen afleggen voordat ze zelfstandig aan de slag kunnen. In tegenstelling tot Google Bard en de populairdere ChatGPT van OpenAI is Med-Palm niet openbaar toegankelijk.
Twee versies van Med-Palm deden het USMLE-examen en scoorden beter dan gemiddeld. Gemiddeld beantwoorden artsen in opleiding 60 procent van de meerkeuzevragen appropriate. Med-Palm had ruim 67 procent appropriate en de verbeterde versie, Med-Palm 2, zelfs meer dan 85 procent. De tweede take a look at vond echter plaats zonder peer evaluation.
Tekortkomingen
Hoewel de ai-bot meerkeuzevragen opvallend vaker juist beantwoordde, bestrijden de onderzoekers in het Nature-artikel dat de taalmodellen waarop chatbots zijn gebaseerd, de kennis van artsen voorbijstreeft. Ze hebben een hoge nauwkeurigheid op medische vraag- en antwoorddatasets, maar vertonen tekortkomingen en beperkingen in de prestaties van de modellen ten opzichte van artsen, schrijven ze. Zelfs met de introductie van prompts, waarmee de gebruiker zijn instructies in meerdere opeenvolgende chatberichten uiteenzet, blijven de bots achter bij menselijke experience.
De onderzoekers houden ermee rekening dat de prestaties van de taalmodellen die ten grondslag liggen aan bijvoorbeeld Med-Palm, in de toekomst verbeteren. ‘Begrip, kennisherinnering en redeneren verbeteren als de schaal van het mannequin en de instructieaanwijzingen worden aangepast, wat wijst op het potentiële nut van grote taalmodellen in de geneeskunde.’
Afgelopen februari verkondigde OpenAI dat zijn chatbot ChatGPT hetzelfde medische examen bijna had gehaald. De toepassing deed het examen meerdere keren en de rating varieerde daarbij tussen de ruim 52 procent en de 75 procent. Het viel de onderzoekers destijds op dat de bot vaak met onorthodoxe, maar clinisch valide antwoorden kwam.