Julkaistu: 9.4.2026

Suuri otoskoko ei takaa luotettavaa dataa, ei sinnepäinkään

Arvioitu lukuaika: 3 min.

Tutkimuksia tarkastellessa moni osaa jo olla kriittinen ja kiinnittää huomiota keskeisiin tekijöihin. Silti yksi ratkaiseva asia unohtuu yllättävän usein: otanta. Jos otos ei ole edustava, koko tutkimus voi vääristyä, riippumatta siitä, kuinka paljon dataa on kerätty.

Edustava otanta ratkaisee koko tutkimuksen pohjan

Kun tutkimuksen luotettavuutta arvioidaan, katse kiinnittyy yleensä kohderyhmään, otoskokoon ja virhemarginaaliin. Näillä pääsee jo pitkälle. Kuitenkin juuri otanta on se tekijä, joka voi ratkaista kaiken. Vinoutunut otanta vääristää aineistoa ja pahimmillaan johtaa harhaan myös siitä tehtävät johtopäätökset.

Jotta tutkimuksen tulokset ovat luotettavia, otannan tulee olla mahdollisimman edustava eli sen tulee heijastaa koko tutkittavaa joukkoa. Mukaan otokseen tulee valikoitua eri ikäisiä, eri taustoista tulevia ja eri tilanteissa olevia ihmisiä samassa suhteessa kuin perusjoukossa. Usein tähän päästään satunnaisotannalla, jossa osallistujat valitaan satunnaisesti. Tärkeää on myös varmistaa, ettei mikään joukko jää systemaattisesti ulkopuolelle.

Helppo, mutta virheellinen tapa kerätä aineistoa on hyödyntää omia tuttuja tai valmiita kontakteja. Tällöin otanta ei perustu siihen tarkoitettuihin menetelmiin, vaan sattumaan ja saatavuuteen. Lopputuloksena voi olla aineisto, joka näyttää uskottavalta, mutta ei todellisuudessa sitä kuitenkaan ole.

Esimerkkejä: kun otanta vääristää tulkintaa

Jos esimerkiksi yritys haluaa selvittää kuluttajien kiinnostusta uutta digipalvelua kohtaan ja kerää aineiston omissa somekanavissaan tai uutiskirjeessään, tulokset voivat näyttää liian positiivisilta. Suuri osa vastaajista saattaa olla kiinnostunut palvelusta ja valmis kokeilemaan sitä. Tällainen tiedonkeruu ei perustu satunnaisotantaan, vaan voi tavoittaa pääasiassa jo valmiiksi brändistä kiinnostuneet ja digitaalisesti aktiiviset ihmiset. Otos ei ole edustava, eikä siten tuloksia voida yleistää laajemmin kuluttajiin.

Haastetta voi syntyä myös silloin, kun aineisto kerätään liian nopeasti. Jos vastaukset kerätään parin tunnin sisällä keskellä päivää, työssäkäyvät jäävät helposti kokonaan ulkopuolelle. Tällöin otos vääristyy, ja tulokset voivat johtaa harhaan.

Jos halutaan tutkia jonkin tuotteen käyttäjiä, voi tuntua loogiselta kerätä aineisto pelkästään heistä. Tässä piilee kuitenkin ongelma. Jos meillä ei ole etukäteistietoa siitä, millainen joukko tuotteiden käyttäjät ovat, emme tiedä, ovatko otokseen mukaan valikoituneet käyttäjät edustava joukko kaikista käyttäjistä. Luotettava tapa on kerätä ensin väestötasolla edustava otos, josta poimitaan erikseen varsinaiseen otokseen tuotteen käyttäjät. Näin voidaan arvioida sekä tuotteen käyttäjien osuus väestöstä että heidän profiilinsa luotettavasti.

Lopuksi

Jos tutkimustulokset tuntuvat täysin yllättäviltä tai poikkeavat selvästi aiemmasta tiedosta, kannattaa pysähtyä hetkeksi. Onko data todella luotettavaa? Tällöin on syytä tarkastaa datan luotettavuuteen liittyvät tekijät, ja yksi niistä on otannan oikeanlainen toteutus.

Kolme kysymystä, jotka kannattaa aina kysyä datasta:

  • Miten otos on kerätty?
  • Edustaako otos haluttua perusjoukkoa?
  • Onko jokin ryhmä jäänyt systemaattisesti ulkopuolelle?

Huolellisesti toteutettu otanta vähentää vinoumia ja parantaa merkittävästi tutkimuksen luotettavuutta. Otanta on näkymätön mutta ratkaiseva osa dataa. Se määrittää, kertooko data oikeasti todellisuudesta, vai vain pienestä ja mahdollisesti vinoutuneesta osasta sitä.

Hyvä data ei synny siitä, että sitä on paljon, vaan siitä, että se on kerätty oikein.

Kuulas Helsinki | Kvantitatiivinen tutkimus

Artikkelin kirjoittaja - Pia Kari
Arvioitu lukuaika: 3 min.