A/B-testning med bättre retention som mål

Har du satt Retention och Customer lifetime value som ett av dina viktigaste affärsmål? Bra!
But can you walk the talk?! Nu börjar den mödosamma resan för att gradvis och långsiktigt optimera din affär mot dessa mål. Hur det går till? Det ska vi gå igenom här.

I min förra bloggpost pratade jag om hur vi optimerare kanske missar målet när vi stirrar på konvertering och inte fokuserar vårt arbete på att skapa återkommande och långsiktigt lönsamma kunder. Vi slog fast att ditt retention-arbete kanske är ditt allra viktigaste arbete. Ok, så långt är vi alla överens – men hur gör man?

A/B-testning gör jobbet, eller?

A/B-testning är optimerarens ”weapon of choice”. Med A/B-tester kan vi skapa hypoteser, utveckla nya varianter, lansera dem mot bara en del av våra besökare och mäta effekten relativt originalet.

Sweet.

Men funkar detta för retention-experiment? Svaret är: – ”Typ nja…”.

Rent teoretiskt går det att sätta upp ett experiment och låta testmålet vara till exempel ”Customer lifetime value” (CLTV), låta testet köra och sedan kolla om ett år vilken variant som vann. Problemet är att ett AB-test som körs i ett år drar på sig en massa andra problem under tiden som kommer göra det svårt att tolka resultatet. Ja, för att inte säga omöjligt. Vi behöver alltså ett annat verktyg. Enter: kohort-analys.

Ett kohort-tåg lämnar stationen

Definition av kohorter och kohort-analys lyder:

”Kohortstudier är inom statistik en studie på en grupp individer med någon bestämd gemensam erfarenhet inom en viss tidsperiod.”

På ren svenska kanske man snarare skulle kunna säga.

”Tagga en grupp av användare baserat på ett visst observerat beteende eller annan karakteristika. Observera sedan beteendet i gruppen över tid (och försök se om /hur det skiljer sig mot andra grupper)”.

“Cohort analysis allows a company to see patterns clearly across the life-cycle of a customer (or user), rather than slicing across all customers blindly without accounting for the natural cycle that a customer undergoes.”

Alistair Croll; Benjamin Yoskovitz. Lean Analytics: Use Data to Build a Better Startup Faster.

Jag brukar tänka att det är lite som en tågstation. Man skickar iväg vissa användare/kunder på ett visst tåg. Andra kunder på andra tåg. Och så tittar man hur det går på resan. Vilka kommer fram? Vilka stoppar halvvägs?

Låt oss ta ett exempel.

Du har en online-tjänst med en gratis-månad som starterbjudande. Du funderar på att förkorta tiden för din ”free trial” från 30 till 15 dagar. Det är lätt att AB-testa. Eller – det behöver man inte alls göra. För konverteringsgraden kommer att gå ner. Färre besökare kommer att konvertera till ett ”sämre” erbjudande. Alltså är konverteringsgraden inte den KPI som du optimerar emot där. Det är Customer lifetime value. Och kassaflöde. För när du kortar gratisperioden till 15 dagar så kommer du närmare din första betalning med 15 dagar. Det är samma som om du skulle fått 15 dagars längre kredit för alla besökare.

Och det här kan man ju göra utan AB-testningsverktyg. Först ser man vad som händer när alla har 30 dagar gratis, och sedan ändrar man till 15 dagar och ser vad som händer då.

Borde väl funka, eller?

Faran med 1/2-testning

När man A/B-testar så testar man två, eller flera varianter på samma besökargrupp – SAMTIDIGT.

Att testa först en variant, sedan en annan, brukar kallas sekventiell testning eller 1/2-testning. Om man inte kan A/B-testa är det bättre att 1/2-testa än att inte testa alls. Men det finns ett par inbyggda problem, och här kommer de.

Icke slumpmässigt urval

Själva grunden för AB-testning är att besökarna som kommer in till din sajt fördelas SLUMPMÄSSIGT till de olika alternativen. När man gör ett 1/2-test fördelas besökarna inte slumpmässigt utan fördelningen styrs av tiden, dvs när kunden kom in bestämmer vilken variant hen ska hamna i. Och då ger vi oss ut på lite svajig statistisk mark.

Vi fortsätter med vårt exempel:

Om du gjorde ett 1/2-test så är ditt test kopplat till andra faktorer som varierar med tiden. Det kan till exempel vara så att:

Värsta konkurrenten lanserar 60 dagar gratis prövoperiod, nu väljer många det alternativet istället, din försäljning går ned ännu mer och du tror att det beror på vad du gjorde?!
Du får ett tekniskt problem som försämrar din laddtid, det drar ned konverteringen och du tror att det beror på din ändrade prövoperiod.
Du har alltid en viss säsongsvariation (tex: att försäljningen alltid går upp på hösten). Vi ser ofta att dessa variationer över tid är STARKARE än den effekt som du försöker bevisa med ditt test. Så om du jämför en vecka/månad mot en annan är risken överhängande att ditt testresultat drunknar i säsongsbruset eller ännu värre: Du tolkar säsongseffekten som en effekt av ditt test (se grafen nedan)

Om linjen representerar din naturliga variation så ser du att genomsnittet för den rosa perioden och den gröna perioden är helt olika. Det är den effekt du skulle fått som du gjort det som vi kallar ett A/A-test. Dvs ett test som testar två identiska varianter mot varandra bara för att se om test-setupen är robust (eller i detta fall snarare ett 1/1-test).

Om den naturliga variationen över tid är större än den förväntade effekten av testet kan du inte 1/2-testa

Såna här felaktiga analyser hade man undvikit om man AB-testat eftersom effekten (säsongseffekten, konkurrenten, laddtiden) drabbat både A och B-varianten lika mycket och då hade man kunnat renodla SKILLNADEN i resultat mellan de två varianterna.

A/B-testning med kohortanalys (the Kosher way)

Så här ska du göra om du ska göra ett kohort-experiment helt “by the book”.

Du sätter upp ett A/B-test ”som vanligt” där du testar de olika varianterna.
Du kopplar testet till ditt analysverktyg, och taggar besökarna som hamnar i de olika varianterna.
Du analyserar utfallet mot din primära KPI över tid (tex CLTV) i de olika kohorterna.

Custom Audiences med Google Analytics

Om vi nu ska prata ”tagga användare” och vi gör det i Google Analytics så heter vårt verktyg här ”Custom audiences”. Det du gör är att koppla A/B-testet med GA och se till att alla besökare som får variant A hamnar i en Custom Audience som heter ”Retention test Variant A” (till exempel), och sedan samma sak för Variant B. Nu har du skapat två grupper som du kan följa över tid.

MEN – är resultatet statistiskt signifikant?

Det fina med A/B-testningsverktyg är att de visar om ett testresultat är statistiskt signifikant eller inte. Så verktyget visar resultatets giltighet och du behöver inte fundera så mycket på hur man kom fram till det. Najs.

Om du nu inte analyserar testet i ditt testverktyg utan tittar på dina kohorter i Google Analytics blir det en annan femma. Säg att GA visar 10 % längre kundlivstid för variant A. Toppen, men nu blir frågan: – ”Är detta ett statistiskt signifikant resultat?”.

För att få svaret på denna fråga så måste du nu använda ett externt statistikverktyg. Här brukar vi och dom flesta rekommendera R.

Du får alltså exportera din data från Google Analytics, importera den till R, och göra din slutliga signifikans-analys här.

Verktyg för kohort-analys

Det verktyg som är kanske allra vanligast för kohort-analyser är Mixpanel. Mixpanel gör flera saker, men det som produkten är uppbyggd kring, är att tagga/identifiera unika besökare och sedan skapa analyser/rapporter kring individuella användningsmönster.

Google Analytics har också kohort-analys, men den enda kohort-rapport som finns out-of-the-box är tidskohorter så vill du ha andra kohort-analyser så måste du bygga dem själv.

Tidskohorter är inte allt

När man börjar med kohortanalys är det lätt att gå in i sitt analysverktyg och börja titta på de kohortrapporter som finns där. Och den vanligaste kohorten är en tidskohort. Den svarar på frågan: – ”För de som kommer in på detta datum, hur ser sedan utvecklingen ut för den gruppen? Och du får en graf/tabell som ser ut så här ungefär (Google Analytics):

Dvs i början är dina kunder/besökare ”varma”, och med tiden svalnar de av. Simple as that.

Men om ”när någon kom in” INTE är den faktor som du vill analysera/optimera så måste du skapa det som kallas ”beteende-kohorter”.

Då måste du först bestämma vilket beteende det är som du vill analysera tex.

Grupp A eller B i ett A/B-test
Desktop vs mobila användare
Konverterade via betald trafik eller organisk trafik
Etc.

Word of Warning – Multi device tracking

Slutligen ett litet varningens ord. För att retention-analys ska fungera så måste du ha din spårning över flera enheter på plats (om dina användare har ett multi-device-beteende).
Om en besökare till exempel konverterar på desktop till din variant A, men sedan fortsätter att använda din tjänst på mobilen och du inte har kopplat ihop dessa två interaktioner så kommer hela din modell att falla. So – do your homework first.

Retention-analys med Google Analytics

Den här bloggposten hade fokus på retention-analys av AB-tester. Men det finns ju många andra retention-analyser som man kan göra i just Google Analytics. Och det skulle vi gärna vilja nörda in lite mer på. Vilket vi kommer göra i en framtida bloggpost! Stay tuned