Google Ads-mainonnan A/B-testaus

A/B-testauksesta kuulee puhuttavan paljon erityisesti digimarkkinoinnin kontekstissa, eikä suotta: käytössä olevat työkalut tarjoavat paljon mahdollisuuksia erilaisten testien ja niiden tulosten analysointiin sekä jatkohyödyntämiseen. Näin datan valtakaudella erilaisia testiasetelmia hyödynnetäänkin niin käyttöliittymäsuunnittelussa kuin esimerkiksi erilaisten mainosmuotojen, copyjen kuin hintastrategioidenkin vertailussa. 

A/B-testaus pitää kuitenkin sisällään useita sudenkuoppia, jotka välttämällä (tai minimoimalla) voi varmistua siitä, että testeistä vedetyt johtopäätökset ovat mahdollisimman lähellä totuutta. Tärkeintä on tiedostaa se, että tulokset eivät koskaan ole 100% kuvaus todellisuudesta, ja niitä tulisi tarkastella lähinnä toimintaa ohjaavina suuntaviivoina.

Hypoteesi

Google Ads-mainonnassa voidaan verrata esimerkiksi kahta hintatarjousstrategiaa, kuten Target CPA:ta ja manuaalista klikkikohtaista hintaa, toisiinsa. Tällöin testiastelmassa on kaksi varianttia: variantti A on aiempi hintatarjousstrategia (manuaalinen klikkikohtainen hinta), johon varianttia B (tCPA) verrataan. Testin tuloksia peilataan ns. nollahypoteesiin, jonka mukaan näiden kahden variantin välille ei muodostu eroa mitattavan asian suhteen. 

Itse hypoteesi sisältää olettaman, että näiden kahden variantin välille muodostuu eroa ainakin tietyn, ennalta-asetetun efektikoon verran: esimerkkitapauksessa efektikoolla tarkoitetaan siis kahden hintatarjousstrategian tuottamien konversioiden määrän, mainostuoton tai konversiosta maksettavan hinnan välistä erotusta, jonka minimitaso määritetään testiasetelmaa luodessa. 

Hypoteesin testaaminen

Kun hypoteesin testaus aloitetaan, tulee ottaa huomioon seuraavat asiat:

  • BUDJETTI: A/B-testauksessa kannattaa varautua normaalia isompaan budjettiin, jotta saadaan aikaiseksi riittävä otoskoko. Budjetti jaetaan tyypillisesti tasan 50:50 -suhteessa kahden variantin kesken. Tarvittavan budjetin suuruutta voidaan arvioida myös laskemalla riittävä otoskoko jo testiasetelmaa luodessa. Mikäli budjettia ei ole mahdollista korottaa tarvittavaa määrää, tulee pohtia kriittisesti sitä, onko testiä edes järkevää aloittaa. 
  • TESTIAIKA: Testijakson tulee olla riittävän pitkä, jotta algoritmin oppimiskynnys ylittyy. Testiajankohtaa määrittäessä on myös hyvä käyttää maalaisjärkeä: esimerkiksi verkkokaupan mainontaa testatessa ei testiä kannata välttämättä ajaa joulun aikaan, sillä sen lisäksi, että mainoshinnat ovat tänä aikana pilvissä, ei joulun ansiosta syntyvä myyntipiikki vastaa kyseisen kaupan normaalitilaa.
  • OTOSKOKO: Jotta otoskoko kasvaa riittävän suureksi validien johtopäätösten tekemistä ajatellen, on kahden edellisen ehdon täytyttävä. Aiemmin kuvatussa hintatarjousstrategioita vertaavassa esimerkissä otoskoolla tarkoitetaan mainosten klikkausmääriä, mutta testiasetelmasta riippuen otoskoko voi tarkoittaa esimerkiksi testattavan yleisön kokoa. Mitä suurempi otoskoko, sitä pienempi satunnaisen virheen todennäköisyys. 

A/B-testin tulokset ja tilastollinen merkitsevyys

Tietyn testijakson jälkeen tuloksista nähdään silmämääräisesti, että variantti B (tCPA) on toiminut paremmin kuin variantti A (manuaalinen klikkikohtainen hinta) – haluttuja konversioita on siis toden totta syntynyt Target CPA-strategialla enemmän. Kuitenkin tässä tilanteessa tuloksia tulkitaan usein turhankin laveasti, sillä tarkempi tarkastelu paljastaa, ettei tilastollisesti merkitsevää eroa ole todellisuudessa syntynyt

Kun vertaillaan kahta ryhmää keskenään, syntyy eroa aina lähes poikkeuksetta. Mikäli syntynyt ero on kuitenkin häviävän pieni, voidaan se usein laittaa otantavirheen piikkiin, jolloin tulokset eivät riitä nollahypoteesin hylkäämiseen, eikä niistä tällöin voida vetää minkäänlaisia johtopäätöksiä.

Ero on puolestaan tilastollisesti merkitsevä, kun pystytään kontrolloimaan tyypin 1 ja 2  virheiden syntymisen riskiä. Tyypin 1 virheellä tarkoitetaan väärää positiivista tulosta: hintatarjousstrategiaesimerkissä tällä tarkoitettaisiin sitä, että vaikka syntynyt ero ei puoltaisikaan toista hintatarjousstrategiaa, silti tulokseksi ilmoitetaan, että tämä kyseinen strategia on parempi kuin toinen. Tätä ykköstyypin virhettä kontrolloidaan p-arvon avulla, joka kuvaa sitä, kuinka yllättynyt tuloksesta olisit, mikäli nollahypoteesi olisi totta ja testiä toistettaisiin loputtomasti. Tyypin 1 virheen riskitasoksi tyypillisesti määritetään 0.05 riippuen testin kontekstista: tämä tarkoittaisi sitä, että jos testi toistettaisiin sata kertaa nollahypoteesin ollessa tosi, vain viisi näistä tutkimuksista tuottaisi väärän positiivisen tuloksen.

Mikäli p-arvo alittaa asetetun riskitason 0,05, voidaan sen päätellä olevan näyttöä siitä, että ryhmien välillä on eroa: Google Adsin tapauksessa käytännössä voitaisiin tällöin suuntaa-antavasti luottaa siihen, että nollahypoteesi on hylätty hyvin perustein. 

Tyypin 2 virheellä puolestaan viitataan ns. väärään negatiiviseen tulokseen: vaikka testin tulos olisi, että hintatarjousstrategioiden välillä ei ole testiasetelmassa määritetyn efektikoon mukaista eroa ja nollahypoteesi jää näin ollen voimaan, voi tCPA olla todellisuudessa kuitenkin parempi ratkaisu. Tätä riskiä kontrolloidaan puolestaan tilastollisella voimalla (Power), jonka raja-arvo on tyypillisesti 0,8: tällöin otetaan 20% riski, että testitulos näyttäisikin väärää negatiivista tulosta – pitäydyttäessä vanhassa hintatarjousstrategiassa, hyväksytään siis se 20% riski, että testi ei pysty havaitsemaan ryhmien välillä syntyvää efektikoon mukaista eroa. 

Testiasetelmaa luodessa arvioidaan pienin kiinnostava efektikoko sekä päätetään merkitsevyystaso ja tilastollinen voima. Näiden perusteella voidaan laskea, millainen minimiotoskoko tarvitaan, jotta testin tuloksia voidaan pitää tilastollisesti merkitsevinä. Ruutuvihkoa ja laskinta tähän ei onneksi kuitenkaan tarvita, vaan siihen löytyy verkosta loistavia valmiita työkaluja. Esimerkiksi Googlella on tarkoitukseen oma ratkaisunsa, mutta se ei tarjoa sellaisia työkaluja hypoteesin suunnitteluun, joissa tilastollinen voima voitaisiin ottaa huomioon. 

Asiantuntijoidemme yleisimmin hyödyntämä sivusto tähän tarkoitukseen on AB Testguide, jota hyödynnetään minimiotoskoon laskemisessa, kun merkitsevyystaso ja efektikoko on valittu testiasetelmaa luodessa. Tilastollisen merkitsevyyden voi puolestaan tarkastaa testin päätyttyä samalta sivustolta löytyvällä laskurilla.

Usein erityisesti budjetti rajoittaa sitä, että A/B-testeissä saataisiin aikaiseksi riittävä otoskoko ja sitä kautta tilastollinen voima: A/B-testauksessa onkin tärkeää priorisoida riittävän otoskoon saavuttaminen, jotta olemassa olevia eroja voitaisiin luotettavasti havaita. Riippuen tehtyjen testien kriittisyydestä ja liiketoiminnallisesta painoarvosta, voidaan näissä tilanteissa harkita joko testiasetelman toimenpiteisiin palaamista sekä niiden optimoimista niin, että tuloksista saadaan luotettavampia (esimerkiksi verkkosivuston suuret muutokset), tai vaihtoehtoisesti käsitellä testin tuloksia suuntaa-antavina ohjenuorina esimerkiksi mainoscopyn tai -visun valinnassa ja jatkokehittämisessä.

Menetelmät mukaan myös muuhun markkinointiin

Tilastomatematiikan menetelmiä voidaan hyödyntää erityisesti digimarkkinoinnin tuloksellisessa toteuttamisessa laajaltikin: A/B-testauksen lisäksi asiantuntijamme käyttävät tilastollisia menetelmiä esimerkiksi mainostilillä havaittujen muutosten kriittisyyden arviointiin – näin tiedetään, ovatko esimerkiksi Ads-mainonnassa havaitut muutokset sellaisia, joihin on järkevää reagoida; mitä niille mahdollisesti tulee tehdä, ja miten muutosdataa voidaan hyödyntää tilin optimoimiseen. 

Jos tarvitset sparriapua kampanjoidesi testaamiseen tai olet etsimässä kokonaisvaltaista kumppania toteuttamaan liiketoimintasi tuloksiin sidottua markkinointia, ota yhteyttä! Asiantuntijamme ovat sinuun yhteydessä pikimmiten.

  • Kenttä on validointitarkoituksiin ja tulee jättää koskemattomaksi.

 

Noora Koskinen

Noora Koskinen

Noora työskentelee MarkkinointiAkatemialla markkinoinnin strategisesta suunnittelusta vastaavana asiantuntijana ja on lisäksi mukana yrityksen omassa markkinoinnissa sekä isoimmissa asiakkuuksissa.

Vapaa-aika kuluu ratsastuksen, uusien juttujen opettelemisen sekä muun epämääräisen taiteilun parissa.

takaisin ylös