Mistä on kyse?
Kun ajatellaan datan tarkasteluun ja data-analyysiin liittyviä lakeja, sisältävät ne usein kaavoja ja yhtälöitä. Silti dataan liittyvän työskentelyn tärkeimpänä lakina pidän itse niin sanottua ”Twymanin lakia”, joka on yksinkertainen ja kaunis periaate:
Mitä yllättävämmiltä ja mielenkiintoisemmilta tulokset vaikuttavat, sitä todennäköisemmin jotain on pielessä.
Älä koskaan luota dataan sokeasti
Amerikkalainen tilastotieteilijä Deming lausui aikoinaan, että ”In God we trust, all others must bring data.” Periaate on hyvä, sillä silloin kuin mielipiteet kilpailevat, voittaa yleensä kovaäänisin tai korkeimmassa asemassa oleva.
Mutta ei dataankaan voi sokeasti luottaa, vaan sen kanssa on aina oltava äärimmäisen skeptinen. Aina jos jokin näyttää liian hyvältä ollakseen totta, ei se luultavasti totta olekaan. Poikkeavat ja yllättävät löydökset ovat kiehtovia, mutta usein myös harhaanjohtavia. Tämä ei tarkoita sitä, että ne olisivat aina väärin – mutta ennen kuin niistä tehdään pitkälle meneviä johtopäätöksiä, on suljettava pois kaikki virheiden mahdollisuudet.
Mutta jos ihan rehellisiä ollaan, niin useimmiten ne johtuvat datassa olevista virheistä.
Virhelähteitä on runsaasti
Markkinatutkimuksissa ensimmäisiä virheen lähteitä on kysymysmuotoilu – mittasiko kysymys aidosti ja luotettavasti sitä asiaa, mitä sen piti mitata. Kyselyn teknisessä toteutuksessa voi tapahtua virheitä, ja niin voi myös datan käsittelyssä. Ei ole esimerkiksi kovinkaan harvinaista, että analyysivaiheessa mittausasteikko on kääntynyt väärinpäin, ja tulokset ovatkin peilikuva siitä, mitä niiden kuuluisi olla.
Ja sitten datan laatu.
On oltava äärimmäisen tarkkana sen suhteen, mistä data on kerätty, ja mille tasolle tuloksia voidaan yleistää. Ja vaikka datalähde olisikin luotettava, on datan siivoaminen ennen analyysiä kriittisen tärkeä vaihe.
Tyypillisesti haastatteludatassa (vaikka esimerkiksi käytetty paneeli olisi laadukas) on noin 3-5 prosenttia ”virheellisiä” havaintoja – vastaajia, jotka eivät ole ottaneet hommaa tosissaan. Jos näitä vastaajia ei datasta poisteta, on sen jälkeen tehtävä analysointi käytännössä turhaa työtä, ja tulosten luotettavuudelta on pohja pudonnut pois. Siksi näiden tunnistamiseen on syytä käyttää aikaa ja energiaa.
Ja tässä oli vasta pintaraapaisu erilaisiin virhelähteisiin.
Tilastollinen merkitsevyys ei validoi löydöksen todellisuutta
On yleensä turhaa tuijottaa sitä, onko löydös tilastollisesti merkitsevä. Enemmän on mietittävä sitä, onko löydös sisällöllisesti merkittävä. On mietittävä sitä, onko se looginen. Ja on varmistuttava siitä, onko se todellinen.
Dataan jääneet virheet ovat vaarallisia, koska ihmismieli on loputtoman kekseliäs. Niin outoa löydöstä tuskin onkaan, jolle ei loogista selitystä kyettäisi keksimään. Ja seuraavaksi löydökset viedään käytännön tekemiseen, ja virheestä saattoi tulla hyvinkin kallis.
Tylsä todellisuus on se, että mitä vähemmän yllätyksiä data sisältää, sitä luotettavampaa data todennäköisesti on. Tai kuten professori De Vaux on muotoillut: ”Jos jokin vaikuttaa liian täydelliseltä, se on todennäköisesti väärin. Ja jos se ei ole väärin, tiesit sen luultavasti jo ennestään.”
Joten – mitä sitten?
Tarkoittaako tämä sitä, että markkinatutkimuksia ei kannata tehdä?
Ei todellakaan.
Välillä markkinatutkimuksiin liittyen kuuluu asiakkailta kommentteja siitä, että ”mehän tiesimme nämä kaikki asiat jo ennestään.” Jos näin käy, niin se validoi kaksi asiaa: data on todennäköisesti luotettavaa, ja asiakas on perillä liiketoiminnastaan.
Mutta tämä toisaalta myös alleviivaa sitä, että markkinatutkimuksen tehtävä ei enää nykypäivänä ole sitä, mitä se oli vielä aikaisemmin. Sen tehtävänä ei ole keskittyä kertomaan siitä, missä tällä hetkellä mennään – vaan sen tehtävänä on kertoa siitä, mihin seuraavaksi kannattaa suunnata ja miten sinne päästään.
Ja silloin, jos data on luotettavaa ja analysointi tehokasta, ollaan todella mielenkiintoisten asioiden äärellä.
Siis kun seuraavan kerran löydät datasta jotain yllättävää, niin kysy itseltäsi: ”missä virhe piilee.”
Tarkista datasi ja analyysisi huolellisesti.
Tarkista ne sitten uudelleen.
Ja anna sitten vielä jonkun muun tarkistaa ne, sillä luultavasti olet jo tullut sokeaksi omalle tekemisellesi.
Ja vasta sitten ryhdy jatkojalostamaan analyysiä ja kertomaan löydöksistä muille!