Mechanistic interpretability voor merken

Q: Wat is het verschil met gewoon mijn AI-vermeldingen meten?

Vermeldingen meten gebeurt aan de outputkant: je ziet dat je genoemd wordt en in welke context. Interpretability kijkt aan de inputkant van de redenering en toont waarom: welke associaties, welk sentiment en welke zekerheid het model intern aan je merk koppelt. Het ene vertelt je de score, het andere het mechanisme erachter.

In bijna elk gesprek over AI-zichtbaarheid behandelen we taalmodellen als een black box. We meten wat eruit komt (citaties, vermeldingen, antwoorden) en we sleutelen aan wat erin gaat (content, structuur, boodschap). Dat werkt prima. Je boekt forse vooruitgang zonder ooit te weten wat er binnenin het model gebeurt.

Maar er bestaat een dieper niveau van begrip. Een niveau dat niet alleen toont dat je merk vermeld wordt, maar waarom: de interne mechanismen die de vermelding veroorzaken. Dat is mechanistic interpretability: de opkomende wetenschap die probeert te begrijpen hoe neurale netwerken informatie echt verwerken. Voor merken biedt het iets dat geen enkele andere aanpak kan geven: zicht op hoe een AI-systeem jouw bedrijf, producten en categorie intern voorstelt en erover redeneert.

In dit artikel leg ik in mensentaal uit wat je ziet als je in dat model kijkt, en wat je ermee kan. Het is een gevorderd onderdeel van de ultieme GEO-handleiding, waarbij GEO staat voor generative engine optimization. Verwacht geen knoppen die je morgen zelf indrukt, wel een mentaal model dat je helpt scherpere keuzes te maken.

Hoe scoort jouw pagina? Check je GEO-readiness met onze gratis GEO-tool.

Wat interpretability blootlegt

Wanneer een taalmodel jouw merknaam verwerkt, activeert het specifieke patronen door zijn neurale netwerk heen. Die activatiepatronen zijn de interne representatie van je merk: hoe het model over je “denkt”. Door die patronen te onderzoeken, komen een paar dingen aan het licht.

Associatiestructuur

Welke concepten lichten op naast je merk? Stel dat een fictief “DataFlow Platform” het model binnenkomt. Dan zou je kunnen zien dat begrippen als data-integratie en real-time verwerking sterk activeren, enterprise software en cloud matig, en consumententoepassingen nauwelijks. Die interne associatiekaart toont wat het model echt aan je merk koppelt, niet wat jij in je marketing beweert, maar wat het model heeft geleerd.

Sentiment en zekerheid

Modellen dragen ook een impliciete waardering met zich mee. Activeren er bij jouw merk vooral positieve of negatieve sentimentcircuits? Sterk positief intern sentiment is een structureel voordeel in aanbevelingscontexten, want het model “voelt” zich goed bij je naam.

Daarnaast is er zekerheid. Hoe zeker is het model over jou? Activeren er veel onzekerheidscircuits, dan voorspelt dat hedging in de output: “DataFlow Platform lijkt te zijn…” in plaats van “DataFlow Platform is…”. Voorzichtige taal van het model is dus vaak een symptoom van een onzekere interne representatie.

Redeneerpaden en selectie

Naast statische representaties kan je traceren hoe het model redeneert. Bij een vraag als “Wat is het beste platform voor real-time data-integratie?” doorloopt het model ruwweg deze stappen:

Intentie parsen: het herkent een vraag om een aanbeveling.
Categoriekennis activeren: het cluster rond “real-time data-integratie” licht op.
Kandidaten ophalen: meerdere merkrepresentaties activeren.
Kandidaten evalueren: vergelijkingscircuits springen aan.
Antwoord selecteren: de kandidaat met de hoogste zekerheid wint.
Output genereren: het natuurlijke antwoord rolt eruit.

Door dit pad te volgen, zie je waar je merk de redenering binnenkomt, of net niet. Activeer je al bij stap 3? Hoe sterk? En hoe doe je het in de vergelijking bij stap 4? Dat sluit nauw aan bij hoe ik de anatomie van AI-bronselectie beschrijf: niet één moment, maar een keten van beslissingen.

De technieken achter de schermen

Je hoeft deze methodes niet zelf te implementeren, maar ze begrijpen helpt om bevindingen te interpreteren. Hier de belangrijkste in begrijpelijke termen.

Activatie-analyse: voer je merknaam in, registreer welke neuronen oplichten per laag, en map dat naar interpreteerbare concepten. Zo zie je welke associaties in de representatie van je merk zitten.
Attention-analyse: transformermodellen gebruiken attention om te bepalen waar ze naar “kijken”. Door die gewichten te bekijken, leer je welke contextfactoren je merkverwerking beinvloeden.
Probing classifiers: train een eenvoudig modelletje op de activaties om te testen of een eigenschap (bijvoorbeeld “enterprise-gericht”) echt gecodeerd zit in je representatie.
Causale interventie: pas activaties bewust aan en kijk hoe de output verandert. Zo onderscheid je correlatie van echte oorzaak.
Circuitanalyse: traceer het volledige pad van input tot output om te begrijpen welk onderdeel wat bijdraagt.

Je merk in de representatieruimte

Een van de toegankelijkste analyses kijkt naar de embeddingruimte. Moderne modellen stellen woorden en concepten voor als vectoren in een hoog-dimensionale ruimte. Je merk neemt daar een positie in, en zijn buren verraden de associaties.

Zit je merk dicht bij concurrenten en categoriebegrippen, dan is dat gezonde positionering: je activeert mee bij categorievragen. Zit een merk daarentegen vooral in “startup-ruimte” (naast termen als emerging of unproven), dan activeert het mogelijk niet bij categorievragen, simpelweg omdat het niet in de buurt van de juiste concepten ligt. Dat is een fundamenteel ander probleem dan een zwakke tekst, en het vraagt om een andere oplossing.

Je kan ook testen welke attributen sterk gecodeerd zijn. Misschien sta je stevig bekend als enterprise-gericht en real-time-capabel, maar zwak als gebruiksvriendelijk of kostenefficient, terwijl een concurrent net die laatste positionering bezit. Dat vertelt je precies waar je perceptiekloof zit.

Hier raakt interpretability aan iets dat ik vaker benadruk: zichtbaarheid is geen toeval maar het gevolg van hoe sterk en hoe stabiel je in het geheugen van het model zit. Wie dit wil opvolgen zonder in de modelinterne keuken te duiken, kan beginnen bij brand salience meten, wat dezelfde vraag stelt vanaf de outputkant.

Vergelijken, selecteren en ingrijpen

Het echt interessante gebeurt bij vergelijking en interventie.

Waar je een vergelijking verliest

Bij een directe “jij versus concurrent”-vraag activeren vergelijkingscircuits die attributen wegen. Stel dat je sterk scoort op feature-volledigheid en prijs-waardeverhouding, maar verliest op marktaanwezigheid en merkvertrouwen, en dat net die twee samen dertig procent van het vergelijkingsgewicht uitmaken. Dan weet je meteen waar je optimalisatie-energie naartoe moet. Niet gokken op basis van de output, maar rechtstreeks aflezen welke factoren de doorslag geven.

Interventie als bewijs

De krachtigste techniek is ingrijpen op de interne representaties en kijken wat verandert. Een paar voorbeelden van wat zoiets kan aantonen:

Activation steering: versterk kunstmatig de “enterprise-gerichte” activatie van je merk, en als je merk daardoor in het antwoord naar voren schuift, heb je een causaal verband aangetoond tussen die associatie en je aanbevelingspositie.
Concept-erasure: onderdruk een concurrent in de overweging van het model. Activeert jouw merk daardoor sterker, dan blijkt dat die concurrent jouw activatie actief dempte. Jullie vechten letterlijk om dezelfde ruimte.
Representation editing: voeg een attribuutvector als “innovatief” toe aan je merk-embedding, en als het model je voortaan als “vooruitstrevend” beschrijft, bevestigt dat de directe link tussen interne representatie en taalgebruik.

Belangrijk: dit zijn analysetechnieken om te begrijpen, geen knoppen om productiemodellen mee te manipuleren. Ze tonen wat zou werken als je de onderliggende perceptie in de echte wereld zou versterken.

Waarvoor je het in de praktijk gebruikt

Diagnose

Als je zichtbaarheid lager is dan verwacht, helpt interpretability de oorzaak vinden:

Symptoom	Mogelijke bevinding	Actie
Lage selectie ondanks goede content	Zwak autoriteitssignaal in de activatie	Bouw autoriteit op in bronnen die het model voedt
Niet vermeld bij categorievragen	Merk ligt niet dicht bij categorieconcepten	Versterk de categorie-associatie in al je communicatie
Vermeld, maar met voorzichtige taal	Hoge onzekerheidsactivatie	Vergroot je aanwezigheid in gezaghebbende bronnen

Prioritering en voorspelling

Interpretability toont ook welke optimalisaties het zwaarst wegen. Wegen selectiecircuits semantische relevantie zwaarder dan autoriteit, dan weet je dat relevantiewerk meer impact heeft dan linkbuilding. En het is voorspellend: zie je de embedding van een nieuwe concurrent richting jouw categorieruimte bewegen, dan kan je je positionering versterken voordat ze echt opduiken. Die voorsprong in detectie sluit aan bij wat ik bij primary bias beschrijf, waar wie eerst stevig in het modelgeheugen zit een blijvend voordeel opbouwt.

Grenzen en eerlijk gebruik

Een nuchtere noot. Interpretability is niet perfect. De bevindingen zijn benaderingen, niet de absolute waarheid. Ze komen vaak van open analysemodellen (zoals Llama of Mistral) die als proxy dienen voor gesloten modellen als GPT of Gemini, en ze kunnen verouderen zodra modellen updaten. Behandel inzichten dus met de gepaste bescheidenheid.

En er is een ethische lijn. Begrijpen hoe modellen werken om echt betere content te maken die gebruikers dient, is iets anders dan modellen bespelen voor onverdiende aanbevelingen. De intentie maakt het verschil. Optimaliseren voor verdiende zichtbaarheid blijft het uitgangspunt.

Veelgestelde vragen

Heb ik mechanistic interpretability nodig om zichtbaar te zijn in AI?

Nee. Vrijwel alles wat je zichtbaarheid oplevert, werkt zonder dat je ooit in een model kijkt. Het is een frontier-techniek voor organisaties die maximaal voordeel zoeken en de infrastructuur en expertise in huis hebben of inkopen. Voor de meeste merken is degelijke content, structuur en autoriteitsopbouw belangrijker en haalbaarder.

Kan ik dit zelf toepassen op ChatGPT of Gemini?

Niet rechtstreeks. Gesloten modellen geven hun gewichten en activaties niet vrij, dus onderzoekers werken met open modellen als proxy en valideren bevindingen tegen de output van de gesloten modellen. Je accepteert dus een benadering in ruil voor diepgang. Sommige API’s openen beperkt activatie-informatie, maar volledige analyse vereist open-weight modellen.

Wat is het verschil met gewoon mijn AI-vermeldingen meten?

Vermeldingen meten gebeurt aan de outputkant: je ziet dat je genoemd wordt en in welke context. Interpretability kijkt aan de inputkant van de redenering en toont waarom: welke associaties, welk sentiment en welke zekerheid het model intern aan je merk koppelt. Het ene vertelt je de score, het andere het mechanisme erachter.

Welke concrete actie levert dit op voor mijn marketing?

Vooral scherpere prioritering. In plaats van te gokken welke factor je zichtbaarheid drijft, lees je af of het om relevantie, autoriteit, categorie-associatie of perceptie van een specifiek attribuut gaat. Die diagnose stuurt je budget naar de hefboom die echt telt, of dat nu betere content, meer gezaghebbende bronnen of een sterkere categoriepositionering is.

Mechanistic interpretability voor merken: kijken in het brein van het model