AI-crawlers toelaten op je website

AI-crawlers toelaten op je website doe je niet met één regel in robots.txt, maar door je hele ophaalketen te controleren: robots.txt, server, CDN, firewall en de manier waarop je pagina’s renderen. Pas als al die lagen meewerken, kunnen bots zoals GPTBot, ClaudeBot en PerplexityBot je content volledig lezen en correct interpreteren. Dit artikel laat zien welke crawlers er zijn, waar ze in de praktijk vastlopen en hoe je je site zo configureert dat AI-modellen je echt zien.

Dit is het spiegelbeeld van de blokkeer-vraag. Twijfel je nog of je bots überhaupt wil binnenlaten, lees dan eerst AI-bots blokkeren of binnenlaten. Hier gaan we ervan uit dat je gevonden wil worden, en kijken we naar de techniek erachter. Voor de bredere context past dit binnen onze gids om een B2B-website te laten maken.

Welke AI-crawlers zijn er en wat doen ze?

Elke grote AI-aanbieder draait niet één bot, maar een klein vloot van crawlers met elk een andere taak. Dat onderscheid is belangrijk, want het bepaalt welke toegang je zichtbaarheid in AI-antwoorden oplevert.

Grofweg vallen ze in drie categorieën:

Trainingscrawlers halen content op om een toekomstig model te verbeteren. GPTBot van OpenAI en Google-Extended zijn hier de bekendste voorbeelden van.
Zoek- en indexcrawlers bouwen de live-index waaruit een AI-zoeksysteem zijn antwoorden samenstelt. Voorbeelden zijn OAI-SearchBot en PerplexityBot.
Ophaalbots voor gebruikers halen een pagina op het moment dat iemand er net een vraag over stelt, zoals ChatGPT-User en Perplexity-User.

Dit onderscheid heeft een praktische gevolg: voor B2B-zichtbaarheid zijn vooral de zoek- en ophaalbots je infrastructuur. Zij bepalen of je merk opduikt in ChatGPT Search, in Claude-antwoorden of in een Perplexity-resultaat. Trainingscrawlers toelaten gaat meer over de lange termijn en over hoe modellen je categorie leren kennen. De namen van deze bots veranderen geregeld, dus behandel elke lijst als een momentopname en controleer periodiek je serverlogs op nieuwe user-agents.

Hoe laat je AI-crawlers correct toe in robots.txt?

Je laat een AI-crawler toe door hem in robots.txt niet te blokkeren, of door hem expliciet toegang te geven. Elke bot is een aparte user-agent, dus een regel voor de ene raakt de andere niet.

Een minimale, open opzet ziet er zo uit:

User-agent: GPTBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

In de praktijk is een lege of ontbrekende Disallow al voldoende: wat niet geblokkeerd is, mag opgehaald worden. De fout die we het vaakst zien, is een te brede Disallow: / die ooit als test is ingesteld en nooit is weggehaald, of een blokkade die per ongeluk alle user-agents (*) raakt. Controleer dus niet alleen of je de juiste bots toelaat, maar vooral of een algemene regel ze niet stilletjes buitensluit.

Wil je sturen per contenttype, laat dan je publieke kennis- en dienstenpagina’s open en sluit enkel echt afgeschermde paden (klantportalen, betaalde rapporten). Die afweging per pad werkten we uit in het blokkeer-artikel. Onthoud wel: robots.txt is een beleefde instructie, geen slot. Echt gevoelige content hoort achter een login, niet enkel achter een regel.

Waarom is robots.txt openzetten niet genoeg?

Omdat een crawler je pagina pas leest als hij voorbij je server, CDN en firewall geraakt, en juist daar lopen veel sites onbedoeld vast. Je robots.txt kan perfect open staan terwijl een beveiligingslaag de bot alsnog tegenhoudt.

De meest voorkomende stille blokkades:

Firewall- of WAF-regels die bots op basis van user-agent of gedrag weren. Veel beveiligingsdiensten en CDN’s hebben standaardregels die AI-crawlers als “ongewenst verkeer” markeren. Dan krijgt de bot een 403 of een challenge te zien in plaats van je content.
Bot-management dat een uitdaging opwerpt, zoals een JavaScript-challenge of CAPTCHA. Een AI-crawler lost die niet op en geeft het op.
Rate limiting dat te streng staat, waardoor een bot na enkele verzoeken wordt afgekapt en je site nooit volledig ophaalt.
Geoblocking of IP-beperkingen die verkeer uit bepaalde regio’s of datacenters weren, precies waar veel crawlers vandaan komen.

De manier om dit te controleren is je serverlogs. Zoek op user-agents als GPTBot of PerplexityBot en kijk welke statuscode ze terugkrijgen. Veel 200-codes betekent dat ze binnen geraken; veel 403’s of challenges betekent dat een laag boven robots.txt ze blokkeert. Dit hoort bij de bredere website-architectuur en techniek die bepaalt of je überhaupt vindbaar bent.

Waarom lezen AI-crawlers mijn pagina soms half?

Omdat de meeste AI-crawlers geen JavaScript uitvoeren. Ze lezen de HTML die je server in de eerste respons teruggeeft, en als je belangrijkste content pas na client-side rendering verschijnt, zien ze een grotendeels lege pagina.

Dit is voor B2B-sites het meest onderschatte probleem. Een moderne single-page-applicatie of een zwaar op JavaScript leunende build kan er in een browser perfect uitzien, terwijl een crawler enkel een skelet binnenkrijgt: een lege <div> en een berg scripts. Klassieke zoekmachines zoals Google kunnen JavaScript in zekere mate renderen, maar bij de huidige AI-crawlers kun je daar niet van uitgaan.

Wat je content crawlbaar houdt:

Server-side rendering (SSR) of pre-rendering, zodat je kernteksten, koppen en links al in de initiële HTML staan.
Statisch gegenereerde pagina’s voor content die niet per gebruiker verschilt, zoals kennisartikelen en dienstenpagina’s.
Echte HTML-elementen: tekst in <p>, koppen in <h1> tot <h3>, navigatie in echte <a>-links in plaats van JavaScript-handlers.
Geen kritieke content achter interacties zoals tabs, accordions of “lees meer”-knoppen die pas met JavaScript laden.

Of je nu in WordPress, Webflow of een custom/headless stack bouwt: het gaat niet om het platform, maar of de uiteindelijke pagina haar inhoud server-side levert. Een headless CMS kan prima crawlbaar zijn, mits je een SSR- of static-laag voorziet en niet alles in de browser opbouwt. Wij kijken bij elk webdesign-traject hoe de pagina’s renderen, niet alleen hoe ze er in een browser uitzien.

Hoe maak je je content niet alleen leesbaar maar ook bruikbaar?

Toegang en rendering zorgen dat een crawler binnenkomt en je tekst ziet. Of je vervolgens correct begrepen en geciteerd wordt, hangt af van hoe duidelijk je content gestructureerd is.

Een paar dingen die het verschil maken:

Snelle, stabiele pagina’s. Trage of foutgevoelige pagina’s worden minder volledig opgehaald. Goede Core Web Vitals helpen niet alleen je bezoekers maar ook de bots die binnen een tijdsbudget werken.
Heldere koppenstructuur. Een logische hiërarchie van H2’s en H3’s, geformuleerd als de vragen die je doelgroep stelt, maakt je content makkelijker te ontleden en te citeren.
Gestructureerde data. Met schema-markup geef je modellen expliciete context over wie je bent, wat je aanbiedt en hoe je pagina’s samenhangen.
Een schone sitemap en interne links. Zo vinden crawlers al je relevante pagina’s en begrijpen ze hoe je site in elkaar zit.

Dit is precies waar techniek en zichtbaarheid samenkomen. De crawl-laag is een randvoorwaarde; wat je er inhoudelijk mee doet, hoort bij generative engine optimization. Toegang geven betekent dus niet automatisch dat je geciteerd wordt, het betekent dat je überhaupt in aanmerking komt.

De korte samenvatting

AI-crawlers toelaten is geen schakelaar maar een keten. Zet je robots.txt open voor de bots die je zichtbaarheid voeden, controleer dat je server, CDN en firewall ze niet stilletjes blokkeren, en zorg dat je belangrijkste content server-side in de HTML staat in plaats van pas na JavaScript. Pas als die drie lagen kloppen, lezen GPTBot, ClaudeBot en PerplexityBot je volledig. De rest, schone structuur en snelle pagina’s, bepaalt of je ook nuttig genoeg bent om geciteerd te worden.

Wil je weten of jouw site technisch klaar is om door AI-crawlers correct gelezen te worden, en of dat ook effectief leads kan opleveren? Plan je gratis intake en we kijken eerlijk mee.

AI-crawlers toelaten: zo lezen GPTBot, ClaudeBot en PerplexityBot je correct