Insight · A/B-test
Bayesian A/B-test.
Frequentist p-värden överbedömer säkerhet och underbedömer osäkerhet. Bayesian-analys ger sannolikhet och förväntad lyft direkt, i siffror affärssidan faktiskt kan agera på. Här är hur jag tänker, och en mall ni kan kopiera.
Den regeln (p mindre än 0,05) är inte fel, men den är ofta för trubbig för verkliga affärsfrågor.
Problemet med p-värden
Det vanligaste misstaget i CRO är att överselja resultatet av ett test. Statistiskt signifikant blir vi vann, i stället för vi tror oss kunna utesluta slumpen vid 95 procent. De är inte samma sak, men de behandlas så.
Ett p-värde säger något om hur sannolikt det är att vi skulle se den här skillnaden om verkligheten var att A och B vore lika bra. Det säger ingenting direkt om sannolikheten att B faktiskt är bättre, eller med hur mycket. När någon frågar ”ska vi lansera B?” är p-värdet sällan ett bra svar på den frågan.
Det är ofta det vi vill veta.
Vad Bayesian gör annorlunda
En Bayesian-analys räknar fram en posterior fördelning över förbättringen. Den ger två svar som är direkt användbara: sannolikheten att B är bättre än A (en siffra mellan 0 och 100 procent), och den förväntade förbättringen med osäkerhet runt om.
Det första låter affärssidan fatta beslut utifrån sin egen risktolerans. Vill ni rolla ut ändringen redan vid 85 procents sannolikhet? Vid 95? Det beror på vad ändringen kostar att implementera och vad nedsidan är om B faktiskt är sämre.
Det andra ger en realistisk bild av hur mycket bättre. Frequentist-tester ger ofta en punktskattning som överdriver effekten (”variant B konverterar 0,6 procentenheter bättre”) utan att visa hur osäker den siffran är. Posterior-fördelningen visar både medianen och svansarna.
När det är värt att ringa in en vinnare
Min tumregel: när sannolikheten att en variant är bättre passerar 85 till 95 procent, beroende på vad det kostar att rolla ut, är det dags att besluta. Inte att förlänga testet ”för säkerhets skull”.
Ett test som rullar i flera veckor extra för marginell statistisk vinst kostar mer i form av missat lärande än det vinner i precision. Det är skillnaden mellan att fatta beslut på god grund och att gissa med statistik som täcke.
Mallen vi delar
Vi har byggt en mall som gör räkningen åt er. Ett Google Sheets för rådata och beräkningar, en Looker Studio-rapport som visar posterior-fördelning, sannolikhet och förväntad lyft direkt. Förutsätter att ni har spårning på plats med en custom dimension som markerar variant per session eller användare.
- 01
Kopiera Google Sheets-mallen
Mallen innehåller tre flikar:
Raw Dataför era observationer,Data Sheetsom plockar in värden, ochCalculations & Simulationssom räknar posterior. - 02
Lägg in er rådata
Klistra in observationerna i
Raw Data-fliken i samma format som mallen. Ni behöver två kolumner per variant: besökare och konverteringar (eller motsvarande för er primära mätpunkt).Har ni Supermetrics, Funnel eller Fivetran kan ni automatisera påfyllningen. För många tester räcker det att uppdatera manuellt vid behov.
- 03
Verifiera att Data Sheet plockar rätt
Kolla att
Data Sheetvisar samma värden som ni lagt iRaw Data. Det är här de flesta småfel uppstår, oftast genom att en rubrikrad blivit fel eller en variant-etikett stavats om. - 04
Kopiera Looker Studio-rapporten
Rapporten visar posterior-fördelningen, sannolikhet att B slår A, förväntad lyft, och två kontrollvyer för att fånga om datan ser konstig ut.
- 05
Koppla datakällan
När ni kopierat rapporten kommer Looker Studio be er välja datakälla. Peka mot er kopia av Google Sheets, och anslut två tabbar:
Calculations & SimulationsochData Sheet. - 06
Kontrollera filter och nyckeltal
Innan ni börjar besluta, gå igenom alla filter och nyckeltal en gång. Är variant-namnen rätt? Visar sannolikheten en rimlig siffra givet observerad skillnad? Om något ser konstigt ut är det nästan alltid datakällan, inte mallen.
Verktyg ni behöver
Google Sheets, Looker Studio (gratis), GTM (webb eller server-side), och en analytics-stack (GA4 eller Piwik PRO) som kan skriva en variant-dimension per session eller användare. Behöver ni hjälp med själva dimensionen har vi separata setupguider: A/B-test-spårning i GA4 och A/B-test-spårning i Piwik PRO.
För komplexare analyser (flera samtidiga varianter, segmenterade effekter, sekventiell testning) kör vi egna pipelines i Python och R. För 80 procent av testbehoven räcker mallen.
Vill ni läsa mer om hur vi jobbar med experiment? Vår tjänst för konverteringsoptimering
Behöver ni komma igång med Bayesian-mätning?
Vi sätter ofta upp första testet och Looker Studio-dashboarden tillsammans med kundens team. Mejl till hej@addinginsight.se eller boka tid direkt.
Boka 30 minuter
KL