Citation mining: AI-citaties meten

Als ik klanten vertel dat een AI-model elke dag miljoenen keuzes maakt over welke bronnen zichtbaarheid verdienen, knikken ze. Als ik dan vraag welke bronnen voor hun categorie worden geciteerd, valt het stil. De meeste bedrijven vliegen blind. Ze stellen af en toe een vraag aan ChatGPT, zien toevallig een citatie en vormen daar een mening over. Dat is geen meetmethode, dat is gokwerk.

Citation mining lost dat op. In dit artikel leg ik uit wat het is, welke metrics je eruit haalt en hoe je het zelf opzet. Het hoort thuis in de ultieme GEO-handleiding, waarin ik het volledige speelveld van generative engine optimization (GEO) beschrijf.

Test je AI-zichtbaarheid: scoor je pagina in een halve minuut met onze GEO-check.

Wat citation mining is

Citation mining is het systematisch extraheren en analyseren van de citaties die AI-systemen in hun antwoorden tonen. Elke keer dat een model een bron aanhaalt, is dat een oordeel: dit stuk content verdient zichtbaarheid voor deze vraag. Als je duizenden van die oordelen verzamelt en ordent, ontstaat een rijke informatiebron.

Die data vertelt je:

Welke domeinen AI-systemen vertrouwen voor welke onderwerpen.
Welke specifieke pagina’s de selectie winnen voor concurrerende vragen.
Hoe citatiepatronen verschuiven in de tijd.
Waar je staat ten opzichte van je concurrenten.
Welke contentkenmerken samenhangen met selectie.

Het verschil met losse waarnemingen is methode. In plaats van te onthouden dat je “een keer geciteerd werd door Perplexity”, meet je structureel hoe vaak en hoe prominent je verschijnt, en wie je verslaat.

Wat de data je laat zien

Wanneer ik citaties voor een onderwerp aggregeer, komen er patronen naar boven die je anders nooit ziet.

Domein-autoriteit

Tel je alle citaties voor een onderwerp, dan zie je meteen wie domineert. Vaak zijn dat de usual suspects (Google, Microsoft, AWS) plus een of twee gespecialiseerde spelers die autoriteit hebben opgebouwd. Sta jij op 2 procent share, dan weet je dat er werk aan de winkel is, en met welke partijen je het opneemt.

Winnaars per vraag

Binnen een onderwerp hebben verschillende vragen verschillende winnaars. Definitievragen (“wat is X?”) citeren encyclopedische bronnen. Vergelijkingsvragen (“beste X tools 2026”) citeren reviewsites. Implementatievragen citeren documentatie. Die nuance bepaalt waar je realistisch kunt winnen. Het heeft geen zin om Wikipedia uit te dagen op een definitievraag als je beter scoort op de implementatiehoek.

Contentkenmerken

Door geciteerde pagina’s te ontleden, zie je wat modellen waarderen: gemiddelde lengte, kopjesdichtheid, gebruik van lijsten, recentheid van de laatste update, aanwezigheid van schema-opmaak. Citeren modellen vooral pagina’s die recent zijn bijgewerkt, terwijl jouw artikel twee jaar oud is, dan heb je een concrete, meetbare actie te pakken.

De metrics die ertoe doen

Citation mining levert pas waarde als je het vertaalt naar cijfers die je over de tijd kunt volgen. Dit zijn de formules die ik gebruik, gebaseerd op het bronmateriaal.

Metric	Formule	Wat het meet
Citation share	jouw citaties / totale citaties	Je aandeel van alle citaties binnen een queryset
Citation frequency	vragen waarin geciteerd / totaal aantal vragen	Hoe vaak je überhaupt opduikt
Primary citation rate	primaire citaties / totale citaties	Hoe vaak je de hoofdbron bent als je geciteerd wordt
Citation velocity	(citaties nu - citaties vorige periode) / citaties vorige periode	De snelheid waarmee je positie verandert
Competitive citation index	jouw citaties / citaties concurrent	Of je vaker of minder vaak geciteerd wordt dan een rivaal

Een paar interpretaties die ik belangrijk vind:

Hoge frequency, lage share betekent dat je vaak opduikt maar zelden prominent. Je bent aanwezig, niet dominant.
Lage frequency, relatief hoge share betekent dat je zelden verschijnt, maar als je verschijnt, domineer je. Een teken om je dekking uit te breiden.
Citation velocity is je vroegtijdige waarschuwingssysteem. Een negatieve velocity verraadt verlies van positie voordat het in je traffic zichtbaar wordt.
Een competitive citation index boven 1 betekent dat jij meer geciteerd wordt dan de concurrent, onder 1 dat zij leiden. Volg dit tegen meerdere rivalen voor een compleet beeld.

Deze citatiemetrics zijn een verdieping van de 5 kernindicatoren van AI-zichtbaarheid, zoals prompt recall rate. Waar prompt recall rate meet of je überhaupt genoemd wordt, zoomt citation mining in op de bron-attributie zelf.

Hoe je het meet: het proces stap voor stap

Je hoeft geen zware infrastructuur te hebben om te starten. Discipline is belangrijker dan tooling. Dit is de werkwijze die ik aanhoud.

Stap 1: definieer je querycorpus

Bepaal welke vragen je wilt volgen. Een goede corpus mengt drie types:

Kernvragen over je merk en producten (“wat is [product]?”, “[merk] review”, “[merk] vs. [concurrent]”).
Categorievragen waar je zichtbaarheid wilt (“beste [categorie] software”, “hoe [categorie-taak] aanpakken”).
Intentievragen rond de problemen die je oplost (“hoe los ik [probleem] op?”, “[pijnpunt] oplossingen”).

Mik op 100 tot 500 vragen, afhankelijk van je markt. Tip: haal echte zoekopdrachten uit Google Search Console en zet ze om naar conversationele vorm. Dat zijn de queries die mensen werkelijk stellen.

Stap 2: voer de queries uit

Stel je vragen aan de relevante platformen (Google AI Mode, ChatGPT met search, Perplexity, Claude met search) en leg per antwoord vast:

De volledige antwoordtekst.
Alle citaties (URL’s).
De positie van elke citatie (in de tekst of in een bronnenlijst).
Een tijdstempel en het platform.

Bepaal je frequentie naar belang: dagelijks voor concurrentie-intelligence, wekelijks voor trends, maandelijks als minimum voor een basislijn.

Stap 3: extraheer de citaties

Haal uit elk antwoord de URL’s. Normaliseer ze naar domeinniveau (alle varianten van microsoft.com tellen samen), zodat je correct kunt aggregeren. Beslis vooraf of je unieke of totale citaties telt wanneer dezelfde bron meermaals opduikt.

Stap 4: analyseer en bouw een database

Voor doorlopende intelligence sla je elke citatie gestructureerd op. De essentiële velden zijn: een uniek ID, de query en zijn categorie, het platform, de tijdstempel, de geciteerde URL en het genormaliseerde domein, de positie in het antwoord, het type citatie, of je de primaire bron was, en de specifieke tekstpassage (de grounding snippet) die naar jouw pagina verwees.

Met die database draai je share-analyses, query-domein-mappings, trends en gap-analyses. Een relationele database met indexering op je queries volstaat ruimschoots om te starten.

Van snippets naar contentoptimalisatie

Naast URL’s loont het om de werkelijk geciteerde tekst te analyseren. Voor elke citatie kun je de grounding snippet terughalen: de exacte passage van je pagina die in het antwoord belandde. Doe je dat over veel citaties heen, dan zie je wat modellen wél extraheren (definities, statistieken, procesbeschrijvingen, vergelijkingen) en wat ze negeren (inleidende vulling, marketingtaal, vage beweringen).

Daar komt citation coverage bij kijken: het aandeel van een pagina dat daadwerkelijk geciteerd wordt, berekend als geciteerde tekens gedeeld door totaal aantal tekens. Een pagina van 800 woorden waarvan 290 woorden worden geciteerd haalt een hogere coverage dan een lijvige pagina van 2.400 woorden waarvan slechts 380 woorden worden opgepikt. Hoge coverage wijst op efficiënte, extraheerbare content. Lage coverage verraadt opgeblazen tekst of een structuur waar het model niet doorheen komt.

Van intelligence naar actie

Citation mining genereert inzicht, maar inzicht zonder actie is verloren moeite. Ik sluit altijd de meetlus:

Identificeer een kans uit de data: vragen waar je nul citaties hebt maar zou moeten concurreren, of pagina’s met dalende citaties.
Onderneem actie: maak nieuwe content, ververs verouderde pagina’s, of analyseer waarom een concurrent plots wint.
Hermeet de citaties na verloop van tijd.
Schrijf de verandering toe aan je actie.
Verfijn je aanpak op basis van het resultaat.

Die lus maakt van citation mining geen passief rapport, maar een actieve optimalisatiemotor. Wil je deze inzichten bundelen voor stakeholders, lees dan hoe je een AI-zichtbaarheidsrapport maakt waarin citatiedata een centrale plek krijgt.

Een laatste aandachtspunt: respecteer de gebruiksvoorwaarden van de platformen. Geautomatiseerd bevragen kan botsen met hun regels en rate limits, dus check de API-mogelijkheden en wees voorzichtig met de schaal van je querying.

Veelgestelde vragen

Wat is het verschil tussen citation mining en gewone rank tracking?

Rank tracking meet posities in klassieke zoekresultaten. Citation mining meet welke bronnen AI-systemen aanhalen in hun gegenereerde antwoorden, inclusief de exacte passages die ze extraheren. Het is een aparte discipline omdat AI-antwoorden niet werken met tien blauwe links, maar met een selectie van bronnen die in een samenhangend antwoord worden verweven.

Hoeveel queries heb ik nodig om te starten?

Voor een betekenisvol beeld mik je op 100 tot 500 vragen, afhankelijk van de breedte van je markt. Wil je gewoon beginnen, dan kun je met 25 tot 50 zorgvuldig gekozen prompts al een bruikbare basislijn leggen. Belangrijker dan het aantal is dat je dezelfde set herhaaldelijk meet, zodat je trends kunt zien in plaats van momentopnames.

Citeren alle AI-platformen op dezelfde manier?

Nee, en dat is precies waarom je per platform meet. Sommige systemen citeren meerdere bronnen per bewering, andere geven de voorkeur aan één omvattende bron. Sommige wegen recentheid zwaar, andere waarderen brondiversiteit. Sta je sterk op het ene platform maar zwak op het andere, dan is dat een platformspecifieke kans om je content aan te passen.

Moet ik dit zelf bouwen of een tool kopen?

Dat hangt af van je middelen. Bouw zelf als je diepe maatwerk-intelligence wilt, engineering-capaciteit hebt en dataeigendom cruciaal is. Koop een tool als time-to-value telt en standaardfunctionaliteit volstaat. Een veelgebruikte tussenweg is een hybride: een externe tool voor het verzamelen en de basisanalyse, en eigen analyses voor de concurrentie-intelligence die je voorsprong oplevert.

Citation mining: je AI-citaties systematisch meten