LLM's in de zorg: kwaliteitsevaluatie en automatisering

Combinatie van menselijke beoordeling en automatische evaluatie meest wenselijk bij toepassing Grote Taalmodellen.

In de zorg zijn medewerkers veel tijd kwijt aan administratieve taken. De inzet van artificiële intelligentie (AI) door middel van Grote Taalmodellen (Large Language Models, LLM’s) kan bijdragen aan het verminderen van de administratieve druk in de zorg. Voor een veilige en betrouwbare inzet van deze AI modellen is gestructureerde evaluatie noodzakelijk. In opdracht van het ministerie van VWS deed TNO onderzoek naar de huidige evaluatiemethoden van deze modellen.

Download: LLM's in de zorg: kwaliteitsevaluatie en automatisering
Rapport28-03-2025PDF-document6.74 MB35 pagina's

Het kennisinstituut stelt vast dat op dit moment menselijke beoordelingen ondersteund door automatische methoden het meest kansrijk zijn voor de evaluatie van LLM’s, aangezien de huidige standaarden en benchmark nog niet geschikt zijn voor volledige automatisering. Echter levert menselijke controle ook meer werkdruk op en is dit op langere termijn niet wenselijk. Op basis van het onderzoek doet TNO verschillende aanbevelingen waaronder de ontwikkeling van evaluatiekaders, gouden standaarden en benchmarks die de implementatie van LLM’s bevorderen.

Grote taalmodellen

LLM’s kunnen menselijke taal genereren en in context plaatsen. Deze vorm van artificiële intelligentie ondersteunt zorgprofessionals bijvoorbeeld bij het vastleggen van informatie in patiëntdossiers en het opstellen van concepten van ontslagbrieven. Om erop te kunnen vertrouwen dat deze modellen betrouwbaar en veilig zijn, is systematische evaluatie heel belangrijk. TNO onderzocht welke technische kwaliteitscriteria noodzakelijk zijn om LLM’s verantwoord op grote schaal in te zetten.

Negen kwaliteitscriteria voor verantwoorde inzet

TNO stelde via literatuuronderzoek en gesprekken met diverse professionals negen belangrijke kwaliteitscriteria vast. De belangrijkste zijn de mate waarin de gegenereerde informatie gefundeerd is (accuraatheid), de consistentie van de informatie in verschillende sessies (betrouwbaarheid), de mate waarin de gegenereerde uitkomsten aansluiten bij de specifieke zorgcontext (relevantie) en de privacy.

Om de kwaliteitscriteria ook in de praktijk van de zorgcontext te kunnen plaatsen en beoordelen, betrok TNO in hun onderzoek ook de resultaten van een pilot van het UMC Utrecht.

Een Large Language Model in de praktijk

In deze pilot heeft het UMC Utrecht een LLM ingezet bij het opstellen van concepten voor ontslagbrieven. De pilot leert dat domein-specifieke evaluatie essentieel is omdat de kwaliteit van AI gegenereerde resultaten afhangt van het. Ook laat de pilot zien dat klinische inzichten nog niet altijd goed meegenomen kunnen worden in de automatisering, wat zichtbaar werd door het verschil in beoordelingen tussen medische studenten en ervaren artsen. Bovendien blijkt uit de pilot dat bij iedere toepassing een balans moet worden gevonden tussen menselijke beoordeling en administratieve efficiëntie.

Aanbevelingen voor verdere toepassingen

Het onderzoek van TNO toont aan dat op dit moment een volledig geautomatiseerde evaluatie nog onhaalbaar is omdat hiervoor onvoldoende standaarden en benchmarks beschikbaar zijn. Een aanpak waarbij automatische methoden menselijke beoordelingen ondersteunen, lijkt op dit moment het meest kansrijk.

Om de toepassing van LLM’s te stimuleren en betrouwbaar in te kunnen zetten, komt TNO met een aantal aanbevelingen:

Scherp de geselecteerde kwaliteitscriteria aan om tot een passend en gedragen evaluatiekader(s) te kunnen komen en ontwikkel collectieve benchmarks;
Breng mogelijkheden in kaart om met benchmarks het gebruik van LLM-toepassingen te ondersteunen;
Investeer in de ontwikkeling van kaders en methodieken die veilig (her)gebruik van data (zoals resultaten van benchmarks) mogelijk maken;
Stimuleer en coördineer kennisuitwisseling en samenwerking tussen zorginstellingen rondom de evaluaties van generatieve AI-modellen, om minder beslag te leggen op schaars zorgpersoneel

Deze aanbevelingen worden gebruikt als input voor het programma Realisatie AI in de zorg.

In het rapport LLM’s in de zorg: Kwaliteitsevaluatie en automatisering vindt u alle onderzoeksresultaten.

Combinatie van menselijke beoordeling en automatische evaluatie meest wenselijk bij toepassing Grote Taalmodellen.

Download: LLM's in de zorg: kwaliteitsevaluatie en automatisering

Grote taalmodellen

Negen kwaliteitscriteria voor verantwoorde inzet

Een Large Language Model in de praktijk

Aanbevelingen voor verdere toepassingen