Julkaistu: 5.6.2023

Datan määrä – väärä kuningas?

Arvioitu lukuaika: 4 min.

Olen omalla urallani tehnyt työtä sekä kvantitatiivisten markkinatutkimusten, henkilöstötutkimusten että ”Big Data” -analytiikan parissa. Kaikissa on hienoja elementtejä, mutta sydämeltäni olen kuitenkin lähtökohtaisesti markkinatutkija.

Ai miksikö?

Koska olen ihastunut siihen, että käsissäni on ratkaistava haaste, ja voin itse määrittää sen, millaisen datan tarvitsen haasteen ratkaisemiseen.

Markkinatutkimus kulkee tavoite edellä, ei data edellä. Se toki vaatii sen, että se selkeä tavoite löytyy, tutkimuslomake noudattaa tätä tavoitetta ja tutkimuslomake on niin vastaajaystävällinen kuin ikinä mahdollista.

Nämä ovat parhaita keinoja vaikuttaa datan laatuun.

Mutta entä datan määrä?

Otoskoon rooli

Se, miten paljon otoskokoa kvantitatiivisissa markkinatutkimuksissa tuijotetaan jopa pelottaa. Suuren otoskoon kunnioitus saattaa pohjautua siihen, että tilasto-opintojen perusteissa päähän on hakattu käsite ”tilastollisesti merkitsevä ero”.

Eikä ole kerran tai kaksi, kun tutkimuspresentaatiossa on kysytty, onko jokin ero tilastollisesti merkitsevä. Ja se on ehdottomasti täysin sallittu kysymys. Mutta miten siihen vastaan, on toinen asia.

Sillä mitä edes on tilastollinen merkitsevyys?

Se on noin sata vuotta vanha käsite. Ronald Fisherin aikaan maailma näytti hyvin toisenlaiselta. Laskeminen oli työlästä, ja tapahtui lähinnä menetelmällä “kynä ja paperi”. Siksi Fisher päätyi pelkistykseen, jossa käytettiin kolmea merkitsevyystasoa: 5 %, 1 % ja 0,1 %. Ei hän missään vaiheessa ajatellut sitä niin, että näihin kolmeen tasoon pitää takertua, tai että nämä ovat jotenkin maagiset tasot. Joitain piti vain valita mahtuviksi taulukkokirjaan.

Mutta vuonna 2023 elämme aivan toisen näköisessä maailmassa. Meillä on paljon muutakin kuin kynä ja paperi, laskeminen on nopeaa ja taulukkokirjoja tuskin käyttää enää kukaan.

Mutta samat sata vuotta vanhat merkitsevyystasot jatkavat sitkeästi elämäänsä.

On aika lopettaa termin ”tilastollisesti merkitsevä” käyttö kokonaan. Myöskään muunnelmien ”merkitsevästi erilainen”, ”p<0,05” ja ”ei-merkitsevä” ei tulisi säilyä, ilmaistiinpa ne sanoin, taulukossa olevilla tähdillä tai muulla tavoin. Riippumatta siitä, onko siitä koskaan ollutkaan hyötyä, ”tilastollisen merkitsevyyden” ilmoittamisesta on tullut merkityksetöntä.

Wasserstein, Schirm, Lazar (ASA 2019)

Laatu ennen määrää

Otoskoon vaikutuksesta tulosten luotettavuuteen kannattaa keskustella vasta sitten, kun tiedämme, että kerätty data on edustavaa ja harhatonta. Se edellyttää esimerkiksi sitä, että otos on satunnainen, kysymyksenasettelu on onnistunut ja vastauskatoa ei juurikaan ilmene.

Siksi yleensä kaikki virhemarginaalit, joita tutkimustulosten yhteydessä esitetään, sisältävät lähinnä viihdearvoa.

Ja jos ja kun otoskokoa ja tilastollisia merkitsevyyksiä tuijotetaan, kiteytyy niiden ongelma seuraavaan: suurilla otoskoilla kaikki erot ovat tilastollisesti merkitseviä, pienillä otoskoilla eivät juuri mitkään.

Silti lopulta – ainoa tärkeä asia on se, millä löydöksillä on käytännön merkitystä. Sitä ei määritä 95 %:n tai minkään muunkan tason merkitsevyydet. Ja jos päätöksenteossa ja tulosten tulkinnassa piiloudutaan tilastollisten merkitsevyyksien taakse, on se lähinnä näkemyksettömyyttä ja vastuun pakoilua.

Ainakin markkinatutkimuksissa.

Kuinka paljon keittoa pitää syödä, ennen kuin tietää, onko se hyvää?

Kun mietitään tarvittavaa otoskokoa, pitää ymmärtää se, että tutkittavan perusjoukon koolla on vain pieni merkitys suhteessa siihen, miten suuri otoskoko tarvitaan.

Kuvittele vaikka tilannetta, jossa teet keittoa. Riippuuko se, kuinka paljon keittoa sinun pitää maistaa tietääksesi sen onnistumisen siitä, kuinka suuren kattilallisen keitit?

Ei, jos keitto on hyvin sekoitettu.

Jos haluaisin tutkia kiinalaisten mielipidettä tai lappeenrantalaisten mielipidettä, pääsisin samalla otoskoolla käytännössä yhtä luotettaviin tuloksiin. Edellyttäen siis, että data on edustavaa ja harhatonta – mikä on todennäköisesti helpommin aikaansaatavissa Lappeenrannassa kuin Kiinassa.

Eikä kukaan kiistä sitä, että kun edustavuus ja harhattomuus on saavutettu, parantaa isompi otoskoko toki estimaattien tarkkuutta. Mutta jälleen – vaikutus on suhteellisen pieni. Luottamusvälin puolittaminen vaatii aina otoksen nelinkertaistamista. On siis merkittävä ero sillä, onko haastateltu sata vai tuhat ihmistä – mutta se, onko haastateltu tuhat vai kaksituhatta ihmistä on jo lähinnä hienosäätöä.

Kuinka paljon on riittävän paljon?

Riittävän luotettavien kokonaistason tulosten saamiseen riittää usein varsin pieni vastaajamäärä. Se ei välttämättä ole kuitenkaan ratkaisevin seikka tarvittavan otoskoon määrittelyssä.

Tuloksia halutaan tarkastella usein erilaisissa taustaryhmissä. Tarvittava otoskoko määräytyykin usein sen mukaan, kuinka suuri on pienin tarkasteltavaksi haluttu osajoukko.

Tässäkin on toki toinen puoli. Jos jotain ryhmää ei löydy riittävästi viidensadan vastaajan joukosta, niin onko silloin kyseessä kovinkaan merkittävä taustaryhmä?

Joka tapauksessa, kun mietit tutkimustuloksia ja niiden luotettavuutta, älä palvo sokeasti suurta otoskokoa ja tilastollisia merkitsevyystasoja. Niiden kautta saat pahimmillaan valheellista varmuuden tunnetta, jonka kautta ajat vain kovempaa vauhtia metsään.

Puhumattakaan siitä, että maksat luultavasti enemmän turhasta.

Tutkimuskoulu | Uncategorized

Artikkelin kirjoittaja - Teemu Putto
Arvioitu lukuaika: 4 min.