Insight · A/B-test

Bayesian A/B-test.

Frequentist p-värden överbedömer säkerhet och underbedömer osäkerhet. Bayesian-analys ger sannolikhet och förväntad lyft direkt, i siffror affärssidan faktiskt kan agera på. Här är hur jag tänker, och en mall ni kan kopiera.

Den regeln (p mindre än 0,05) är inte fel, men den är ofta för trubbig för verkliga affärsfrågor.

Kelvin Luhr

Senior analytiker

Konverteringsoptimering, experimentstatistik och Bayesian-analys. GA4 custom implementations och dataLayer-design för experiment-tracking. Jag skriver återkommande om mätningsdjup och experimentstatistik här på Insights.

Problemet med p-värden

Det vanligaste misstaget i CRO är att överselja resultatet av ett test. Statistiskt signifikant blir vi vann, i stället för vi tror oss kunna utesluta slumpen vid 95 procent. De är inte samma sak, men de behandlas så.

Ett p-värde säger något om hur sannolikt det är att vi skulle se den här skillnaden om verkligheten var att A och B vore lika bra. Det säger ingenting direkt om sannolikheten att B faktiskt är bättre, eller med hur mycket. När någon frågar ”ska vi lansera B?” är p-värdet sällan ett bra svar på den frågan.

Det är ofta det vi vill veta.

Vad Bayesian gör annorlunda

En Bayesian-analys räknar fram en posterior fördelning över förbättringen. Den ger två svar som är direkt användbara: sannolikheten att B är bättre än A (en siffra mellan 0 och 100 procent), och den förväntade förbättringen med osäkerhet runt om.

Det första låter affärssidan fatta beslut utifrån sin egen risktolerans. Vill ni rolla ut ändringen redan vid 85 procents sannolikhet? Vid 95? Det beror på vad ändringen kostar att implementera och vad nedsidan är om B faktiskt är sämre.

Det andra ger en realistisk bild av hur mycket bättre. Frequentist-tester ger ofta en punktskattning som överdriver effekten (”variant B konverterar 0,6 procentenheter bättre”) utan att visa hur osäker den siffran är. Posterior-fördelningen visar både medianen och svansarna.

När det är värt att ringa in en vinnare

Min tumregel: när sannolikheten att en variant är bättre passerar 85 till 95 procent, beroende på vad det kostar att rolla ut, är det dags att besluta. Inte att förlänga testet ”för säkerhets skull”.

Ett test som rullar i flera veckor extra för marginell statistisk vinst kostar mer i form av missat lärande än det vinner i precision. Det är skillnaden mellan att fatta beslut på god grund och att gissa med statistik som täcke.

Mallen vi delar

Vi har byggt en mall som gör räkningen åt er. Ett Google Sheets för rådata och beräkningar, en Looker Studio-rapport som visar posterior-fördelning, sannolikhet och förväntad lyft direkt. Förutsätter att ni har spårning på plats med en custom dimension som markerar variant per session eller användare.

01

Kopiera Google Sheets-mallen

Mallen innehåller tre flikar: Raw Data för era observationer, Data Sheet som plockar in värden, och Calculations & Simulations som räknar posterior.

Öppna Google Sheets-mallen
02

Lägg in er rådata

Klistra in observationerna i Raw Data-fliken i samma format som mallen. Ni behöver två kolumner per variant: besökare och konverteringar (eller motsvarande för er primära mätpunkt).

Har ni Supermetrics, Funnel eller Fivetran kan ni automatisera påfyllningen. För många tester räcker det att uppdatera manuellt vid behov.
03

Verifiera att Data Sheet plockar rätt

Kolla att Data Sheet visar samma värden som ni lagt i Raw Data. Det är här de flesta småfel uppstår, oftast genom att en rubrikrad blivit fel eller en variant-etikett stavats om.
04

Kopiera Looker Studio-rapporten

Rapporten visar posterior-fördelningen, sannolikhet att B slår A, förväntad lyft, och två kontrollvyer för att fånga om datan ser konstig ut.

Öppna Looker Studio-mallen
05

Koppla datakällan

När ni kopierat rapporten kommer Looker Studio be er välja datakälla. Peka mot er kopia av Google Sheets, och anslut två tabbar: Calculations & Simulations och Data Sheet.
06

Kontrollera filter och nyckeltal

Innan ni börjar besluta, gå igenom alla filter och nyckeltal en gång. Är variant-namnen rätt? Visar sannolikheten en rimlig siffra givet observerad skillnad? Om något ser konstigt ut är det nästan alltid datakällan, inte mallen.

Verktyg ni behöver

Google Sheets, Looker Studio (gratis), GTM (webb eller server-side), och en analytics-stack (GA4 eller Piwik PRO) som kan skriva en variant-dimension per session eller användare. Behöver ni hjälp med själva dimensionen har vi separata setupguider: A/B-test-spårning i GA4 och A/B-test-spårning i Piwik PRO.

För komplexare analyser (flera samtidiga varianter, segmenterade effekter, sekventiell testning) kör vi egna pipelines i Python och R. För 80 procent av testbehoven räcker mallen.

Vill ni läsa mer om hur vi jobbar med experiment? Vår tjänst för konverteringsoptimering

Behöver ni komma igång med Bayesian-mätning?

Vi sätter ofta upp första testet och Looker Studio-dashboarden tillsammans med kundens team. Mejl till hej@addinginsight.se eller boka tid direkt.

Boka 30 minuter

Bayesian A/B-test.

Kopiera Google Sheets-mallen

Lägg in er rådata

Verifiera att Data Sheet plockar rätt

Kopiera Looker Studio-rapporten

Koppla datakällan

Kontrollera filter och nyckeltal

Behöver ni komma igång med Bayesian-mätning?