Data & Tracking
Waarom je GA4-rapporten liegen: data sampling uitgelegd
Data sampling is wat er gebeurt wanneer Google Analytics niet al je data verwerkt, maar een steekproef neemt en daaruit je rapport extrapoleert. Het probleem: zodra je segmenten of filters toevoegt boven een bepaalde drempel, schakelt GA4 over op gesampelde data en kunnen exact dezelfde cijfers je tegengestelde conclusies opleveren. Korte TL;DR: let op het schildicoon bovenaan je rapport, want groen betekent volledige data en geel betekent een subset waarop je beter geen omzetbeslissing baseert. In dit artikel lees je wanneer sampling toeslaat, hoe je het herkent en hoe je het omzeilt.
Bij Customer Impact sturen we op klanten en omzet, niet op ijdele cijfers in een dashboard. En gesampelde data is precies zo’n ijdel cijfer: het ziet er overtuigend uit, maar het kan je een verkeerde kant op sturen. Eerlijk advies dat bureaus je zelden geven, geven wij hier wel.
Wat is data sampling in Google Analytics?
Data sampling betekent dat Google Analytics niet elke sessie afzonderlijk berekent, maar een representatieve steekproef neemt en de uitkomst opschaalt naar je volledige verkeer. Voor een gigantische dataset is dat een logische keuze: het houdt je rapporten snel. Het nadeel is dat de uitkomst een schatting wordt, geen exacte telling.
In de praktijk merk je dat vooral wanneer je dieper graaft. Een standaardrapport zonder filters draait meestal op volledige data. Maar zodra je een ad-hoc-analyse maakt met segmenten, een lange periode kiest of complexe filters toevoegt, kan Google besluiten om te samplen. Dezelfde data, anders verwerkt, met andere cijfers tot gevolg.
Wil je je tracking en rapportage fundamenteel betrouwbaar maken, dan is dat precies het werk dat onder onze data-analytics dienstverlening valt: zorgen dat de cijfers waarop je stuurt, kloppen.
Wanneer schakelt GA4 over op gesampelde data?
GA4 sampelt niet zomaar. Het gebeurt bij ad-hoc-queries die een drempel aan events overschrijden binnen de gekozen periode. Belangrijk: anders dan in het oude Universal Analytics rekent GA4 in events, niet in sessies. Volgens de documentatie van Google ligt die drempel bij de gratis Standard-versie op 10 miljoen events per query, en bij Analytics 360 op standaard 100 miljoen events (uit te breiden tot maximaal 1 miljard events voor meer detail).
Belangrijk om te begrijpen: het gaat niet om je totale verkeer ooit, maar om het aantal events binnen de datumrange en query die je opvraagt. Een drukke webshop tikt die 10 miljoen events in een mum van tijd aan, maar ook een B2B-site die een jaar aan data in één keer opvraagt met meerdere segmenten kan eroverheen gaan.
Sampling treedt vooral op in:
- Verkenningen (Explorations) met veel dimensies en segmenten over een lange periode.
- Standaardrapporten waaraan je een vergelijking of filter toevoegt die de query complex maakt.
- Lange datumranges gecombineerd met gedetailleerde uitsplitsingen.
De standaard overzichtsrapporten die je dagelijks bekijkt, zijn meestal veilig. Het risico zit in het moment dat je een interessante vraag wilt beantwoorden, want dan ga je nu juist die zware queries draaien.
Hoe herken je gesampelde data in GA4?
Let op het schildicoon. Bovenaan je rapport in GA4 staat een klein schildje dat de datakwaliteit aangeeft. Een groen schild betekent dat je rapport op 100% van de data is gebaseerd. Een geel schild betekent dat GA4 sampling heeft toegepast en dat je naar een subset kijkt.
Klik je op dat schild, dan toont Google precies welk percentage van de sessies is gebruikt. Zie je bijvoorbeeld dat een rapport op 40% van de data draait, dan is de marge op je cijfers fors. Hoe lager dat percentage, hoe groter de kans dat je conclusie wankelt.
De gewoonte om altijd even naar dat schild te kijken voordat je een rapport interpreteert, is een van de simpelste maar waardevolste reflexen die je kunt aanleren. Het kost twee seconden en behoedt je voor verkeerde beslissingen. In een doordachte marketing dashboard-opzet bouw je die controle standaard in.
Hoeveel kan gesampelde data je conclusies vertekenen?
Veel meer dan je denkt. In een geanonimiseerd klantvoorbeeld zagen we hoe dezelfde regex op organische sessies twee compleet tegengestelde verhalen vertelde, afhankelijk van of de data gesampeld was of niet.
Toegepast als een segment toonde het rapport +13% organische sessies jaar-op-jaar (6.754 tegenover 5.986). Exact dezelfde regex, maar dan toegepast als een filter op niet-gesampelde data, toonde -9% jaar-op-jaar (6.012 tegenover 6.600). Dus de ene weergave zegt dat je organische verkeer groeit, de andere zegt dat het krimpt. Zelfde periode, zelfde site, zelfde regex.
Stel je voor dat je op basis van die +13% besluit om je SEO-budget te verhogen, terwijl de werkelijkheid een daling van 9% is. Je stuurt dan bij op een fictie. Dit is precies waarom we bij Customer Impact zo hameren op betrouwbare data voordat er ook maar één euro herverdeeld wordt. Een dashboard dat groeit op papier maar krimpt in werkelijkheid kost je echte klanten.
Hoe voorkom je sampling in je rapporten?
Je kunt sampling niet volledig uitzetten in de gratis versie, maar je kunt de kans erop sterk verkleinen. Een paar praktische ingrepen:
- Verklein je datumrange. Vraag je een kortere periode op, dan blijven de sessies onder de drempel en hoeft GA4 niet te samplen. Drie keer een kwartaal opvragen is vaak betrouwbaarder dan één keer een jaar.
- Vereenvoudig je query. Minder segmenten en minder dimensies tegelijk betekent een lichtere berekening. Bouw je analyse stap voor stap op in plaats van alles in één verkenning te proppen.
- Gebruik filters in plaats van segmenten waar het kan. Zoals het klantvoorbeeld liet zien, draaien filters in standaardrapporten soms op volledige data terwijl segmenten samplen. Test welke aanpak het groene schild oplevert.
- Exporteer de ruwe data. Voor wie het echt exact wil, is de BigQuery-export van GA4 de gouden standaard. Daar krijg je elke event-rij ongesampeld en bereken je je eigen cijfers. Dit is dezelfde laag waarop een degelijke conversie-tracking-opzet leunt.
De rode draad: hoe lichter en gerichter je vraag, hoe groter de kans dat je met volledige data werkt.
Waarom is dit juist voor B2B belangrijk?
Je zou denken dat sampling alleen een probleem is voor sites met enorme volumes. Voor B2B ligt het subtieler en daardoor verraderlijker. Een B2B-site heeft vaak relatief weinig verkeer, maar verkeer dat zwaar telt: elke sessie kan een potentiële klant van duizenden euro’s zijn.
Daardoor maken kleine vertekeningen een groot verschil. Een verschil tussen +13% en -9% op een handvol kanalen kan bepalen of je een campagne opschaalt of stopzet. Bij een webshop met miljoenen sessies middelt zo’n fout vaak weg, maar bij jou hangt er een concrete beslissing aan vast die direct je roas raakt.
Wij werken niet voor webshops of e-commerce, maar voor B2B-bedrijven die op kwaliteit van leads sturen. Dat betekent dat we liever drie precieze rapporten draaien dan één breed rapport dat op een steekproef van 40% leunt. Een klein, snel team dat de data echt begrijpt, isoleert de waarheid sneller dan een groot bureau dat blind op een dashboard vertrouwt. Wil je weten of je eigen tracking klopt, lees dan ook wat is tracking als startpunt.
Veelgestelde vragen over data sampling in GA4
Kan ik data sampling helemaal uitschakelen in GA4?
In de gratis versie niet volledig. Je kunt sampling vermijden door kortere periodes en eenvoudigere queries te gebruiken, of door te kiezen voor de minst gesampelde optie binnen een verkenning. Voor gegarandeerd ongesampelde data heb je de BigQuery-export of Analytics 360 nodig.
Wat betekent het gele schildicoon in mijn rapport?
Het gele schild geeft aan dat GA4 sampling heeft toegepast en dat je rapport op een subset van de data is gebaseerd. Klik erop om te zien welk percentage van de sessies is gebruikt. Een groen schild betekent dat je naar 100% van de data kijkt.
Vanaf hoeveel events sampelt GA4?
Volgens Google rekent GA4 in events, niet in sessies. De drempel voor ad-hoc-queries ligt bij de gratis Standard-versie op 10 miljoen events per query, en bij Analytics 360 standaard op 100 miljoen events (uit te breiden tot 1 miljard). Het gaat om het aantal events binnen de opgevraagde periode en query, niet om je totale verkeer.
Zijn standaardrapporten in GA4 ook gesampeld?
De meeste standaard overzichtsrapporten draaien op volledige data. Het risico op sampling ontstaat zodra je vergelijkingen, segmenten of complexe filters toevoegt, of een verkenning maakt over een lange periode.
Is gesampelde data altijd verkeerd?
Niet per se, een steekproef kan dicht bij de werkelijkheid liggen. Maar je weet vooraf niet hoe groot de afwijking is, en zoals het klantvoorbeeld liet zien kan die afwijking groot genoeg zijn om je conclusie volledig om te draaien. Voor beslissingen met budget eraan vast werk je dus beter met volledige data.
Stop met sturen op cijfers die je niet kunt vertrouwen
Gesampelde data ziet er net zo overtuigend uit als echte data, en dat is precies het gevaar. Als je marketingbeslissingen baseert op een steekproef van 40%, gok je in feite met je budget. De oplossing is geen ingewikkelde tool, maar de juiste reflexen: kijk naar het schild, vereenvoudig je queries en haal waar nodig de ruwe data binnen.
Wij helpen B2B-bedrijven om hun tracking en rapportage zo in te richten dat elke beslissing op volledige, betrouwbare data rust. Geen ijdele cijfers, wel echte klanten en omzet. Plan je gratis intake.
Gratis website-scan
Geef je website in en krijg binnen enkele minuten een automatische scan met concrete technische en SEO-verbeterpunten. Geen verkooppraatje.
Je gegevens gebruiken we alleen voor je scan. Geen spam, uitschrijven kan altijd.