De Bedreigingen van AI-Webcrawlers voor het Open Internet

2025-03-21 herkennen

Internationaal, vrijdag, 21 maart 2025.
AI-aangedreven webcrawlers veranderen het digitale landschap door enorme hoeveelheden data te verzamelen, en dit roept vragen op over de toekomst van het open web. Hoewel deze technologie innovatie stimuleert, veroorzaakt het ook privacyproblemen en zorgen over intellectuele eigendomsrechten. Grote techbedrijven zoals OpenAI en Google maken gebruik van deze crawlers, wat leidt tot een toenemende druk op kleinere website-eigenaren door de benodigde infrastructuur om botverkeer te beheren. Het evenwicht tussen technologische vooruitgang en de bescherming van digitale rechten van contentcreators is cruciaal. De Europese Unie heeft in 2024 de AI Act geïntroduceerd om de regels rond AI-ontwikkeling te verduidelijken, en er is een wereldwijde roep om soortgelijke regelingen te implementeren. Het verenigde optreden en ethische datalicenties kunnen helpen om te zorgen dat het internet open en toegankelijk blijft voor iedereen.

Acute Impact op Websitebeheerders

De situatie is afgelopen woensdag geëscaleerd toen SourceHut meldde dat AI-webcrawlers hun service ernstig verstoorden [4]. Deze verstoring heeft geleid tot drastische maatregelen, waaronder het unilateraal blokkeren van grote cloudproviders zoals Google Cloud en Microsoft Azure vanwege overmatig botverkeer [4]. Uit recente cijfers blijkt de ernst van de situatie: in december 2024 genereerden alleen al OpenAI’s GPTbot en Anthropic’s Claude samen 939 miljoen verzoeken op het Vercel-netwerk [4]. Dit vertegenwoordigt ongeveer 20% van het verkeer dat zelfs Googlebot genereert [4].

Juridische Ontwikkelingen en Bescherming

De Europese Unie heeft een voortrekkersrol genomen met de introductie van de AI Act in 2024, die bedrijven verplicht expliciete toestemming te verkrijgen voordat ze content scrapen voor AI-training [1]. Deze wetgeving dient als voorbeeld voor vergelijkbare initiatieven in de VS en Azië [1]. Cloudflare heeft afgelopen maandag een nieuwe suite van beveiligingstools geïntroduceerd waarmee contentmakers ongewenste AI-crawlers kunnen blokkeren met één klik [5]. Deze tools omvatten ook een Firewall for AI die zorgt dat persoonlijke informatie niet wordt geëxtraheerd [5].

Technologische Wapenwedloop

Het probleem wordt verergerd door een groeiend aantal namaak-crawlers. Ontwikkelaars rapporteren dat internet trolls hun eigen crawlers creëren die zich voordoen als legitieme bots zoals de OpenAI GPTbot [4]. Volgens DoubleVerify is het ongeldig verkeer door AI-crawlers in de tweede helft van 2024 met 86% gestegen, waarbij 16% van het ongeldig verkeer afkomstig was van bekende AI-scrapers [4]. Als reactie hierop implementeerde Google een speciale robots.txt-token genaamd Google-Extended, waarmee websites kunnen voorkomen dat hun inhoud wordt gebruikt voor AI-training terwijl ze wel vindbaar blijven in zoekmachines [4].

Bronnen

webcrawlers open web