Essentiële Tekortkomingen Ontdekt in DeepSeek AI Modellen door COMPL-AI

Essentiële Tekortkomingen Ontdekt in DeepSeek AI Modellen door COMPL-AI

2025-02-05 journalistiek

EU Regionaal, woensdag, 5 februari 2025.
COMPL-AI heeft door middel van een uitgebreide evaluatie kritieke tekortkomingen blootgelegd in DeepSeek-modellen volgens de EU AI-regelgeving. Deze modellen, gebaseerd op bekende AI-architecturen zoals Meta’s Llama en Alibaba’s Qwen, blijken vooral kwetsbaar op het gebied van cyberveiligheid en vooringenomenheid. Interessant is dat, ondanks deze tekortkomingen, de modellen uitblinken in het beheersen van toxiciteit, beter presterend dan hun oorspronkelijke versies. Het onderzoek benadrukt de noodzaak om de EU AI Act te herzien om tegemoet te komen aan de snel veranderende technologische omgeving. Terwijl COMPL-AI de tekortkomingen in conformiteit blootlegt, wijst het tevens op de behoefte aan robuustere en duidelijkere richtlijnen voor AI-systemen binnen commerciële toepassingen. Beoordelingen van COMPL-AI zijn nu beschikbaar, wat bedrijven helpt bij het navigeren door deze complexe regelgeving en de ontwikkeling van veiligere AI-technologieën te bevorderen.

Gedetailleerde Analyse van Beveiligingsrisico’s

Uit recent onderzoek blijkt dat de DeepSeek-modellen ernstige kwetsbaarheden vertonen op het gebied van cyberbeveiliging. De modellen scoren het laagst op het COMPL-AI leaderboard voor cyberveiligheid [1][3], met een zorgwekkende score van slechts 0.15 op een schaal van 1.0 voor kwetsbaarheid [6]. Ter vergelijking: Llama 2 70B behaalde een score van 0.43, terwijl Claude 3 Opus een indrukwekkende 0.84 scoorde [6]. Cisco-onderzoek toont aan dat DeepSeek in 100% van de geteste gevallen vatbaar is voor kwaadaardige prompts [6], wat direct in strijd is met Artikel 15, paragraaf 5 van de EU AI Act [6].

Prestaties en Vooringenomenheid

De DeepSeek-modellen, waaronder DeepSeek R1 8B en R1 14B [2], vertonen opmerkelijke contrasten in hun prestaties. Hoewel ze uitblinken in toxiciteitspreventie en zelfs beter presteren dan hun oorspronkelijke versies [2][3], blijven ze achter op het gebied van bias. De modellen vertonen sterkere vooroordelen in vergelijking met andere geteste AI-modellen [2], en presteren slechter dan de originele Llama 3.1 en Qwen 2.5 modellen waarop ze gebaseerd zijn [2].

Implicaties voor Bedrijven

Dr. Petar Tsankov, CEO van LatticeFlow AI, benadrukt dat bedrijven hun interne AI-governance en externe naleving moeten herzien [6]. Met bijna 400.000 downloads van de DeepSeek-modellen [2] is het cruciaal dat organisaties zich bewust zijn van de risico’s. COMPL-AI, ontwikkeld door ETH Zurich, INSAIT en LatticeFlow AI [1], biedt een evaluatiekader met 27 belangrijke AI-benchmarktests [2], waarmee bedrijven hun AI-systemen kunnen beoordelen op compliance met de EU-regelgeving.

Bronnen


AI-modellen EU-regulering