AI-modellen blijven verwarring zaaien door hallucinaties

Den Haag, maandag, 12 mei 2025.
Recente onderzoeken suggereren dat nieuwe AI-modellen zoals ChatGPT en Gemini steeds meer hallucineren, wat inhoudt dat ze informatie genereren die niet op feiten is gebaseerd. Deze ontwikkeling is zorgwekkend voor gebruikers die op deze technologie vertrouwen voor nauwkeurige gegevens. Hallucinaties kunnen voortkomen uit het reproduceren van incorrecte trainingsdata of een gebrek aan informatie, en zelfs de vraag om korte antwoorden lijkt dit probleem te verergeren. Hoewel verbeterde AI-modellen worden gelanceerd met updates die beter redeneren, is het percentage incorrecte verstrekte informatie inmiddels hoger dan bij oudere versies. Dit probleem vraagt om dringende aandacht, omdat de betrouwbaarheid van AI cruciaal is in sectoren zoals gezondheidszorg en onderwijs.
Toenemende Hallucinaties in Nieuwe Modellen
Uit recente tests van OpenAI blijkt dat nieuwe chatbots, zoals o4-mini, bijna drie keer zo vaak hallucineren als oudere modellen. Waar het o1-model nog 16% van de samenvattingen over personen incorrect weergaf, steeg dit percentage bij o4-mini naar 48% [3]. Deze trend is niet beperkt tot OpenAI; ook andere AI-modellen zoals DeepSeek R1 vertonen hogere foutmarges [3]. Het probleem wordt verergerd wanneer AI-modellen worden gevraagd om korte antwoorden te geven, zoals blijkt uit onderzoek van het Franse AI-testbedrijf Giskard [2].
Impact op Verschillende Sectoren
De gevolgen van deze AI-hallucinaties zijn vooral zorgwekkend in de financiële sector, waar meer dan 80% van de instellingen bezorgdheid uit over de betrouwbaarheid van data en de uitlegbaarheid van AI-systemen [5]. In de praktijk kunnen deze hallucinaties leiden tot juridische risico’s en reputatieschade, vooral in cruciale gebieden zoals kredietverlening en risicobeoordeling [5]. Ook in andere sectoren nemen mensen onbewust vooroordelen en halve waarheden over van AI-systemen waarmee ze werken, wat kan leiden tot een gevaarlijke feedbackloop van desinformatie [6].
Onderliggende Oorzaken
Een fundamenteel probleem is dat taalmodellen werken met neurale netwerken en statistiek, zonder ingebouwd systeem om waarheid van onwaarheid te onderscheiden [1]. Bedrijven zoals Google, OpenAI en Anthropic hebben geprobeerd dit op te lossen door toegang tot het internet te bieden en extra redeneerstappen toe te voegen, maar benchmarks tonen aan dat nieuwere redenerende modellen juist vaker hallucineren [1]. Dit wordt extra problematisch omdat gebruikers en bedrijven er vaak van uitgaan dat nieuwe AI-modelversies minstens zo goed zijn als voorgaande versies [1].