Synteettinen data on tällä hetkellä yksi markkinatutkimuksen kuumimmista puheenaiheista. Ja kuten usein kuumissa puheenaiheissa, pöhinä voi olla kovempaa kuin ymmärrys.
Tässä kirjoituksessa en yritä myydä enkä teilata synteettistä dataa. Minulla on käytännössä aivan sama, ovatko vastaajat aitoja vai synteettisiä. Minua kiinnostaa vain yksi asia: onko data luotettavaa.
Ja se on asia, mihin tässä keskityn.
Kävin hiljattain keskustelemassa aiheesta osana Marketing Finlandin, KAMK:n ja SAMK:n MFamk-Superdigital-hanketta, jonka lopputuotoksena julkaistaan kolme alan tulevaisuutta käsittelevää äänitallennetta.
Se oli hyvä hetki myös itselleni kirkastaa omia ajatuksiani tähän liittyen.
Ensin pitää purkaa termi
Synteettinen data on jo terminä niin moniulotteinen, että ilman määrittelyä keskustelu menee helposti sekaisin. Sama sana tarkoittaa viidestä kymmeneen eri asiaa riippuen keneltä kysyt.
Periaatteessa synteettinen data on keinotekoisesti tuotettua dataa, joka näyttää oikealta. Siinä ei ole mitään uutta. Tilastotieteessä on simuloitu ja paikattu eli imputoitu dataa mallinnuksella vuosikymmeniä.
Mutta nyt termiin on ladattu uusia merkityksiä, jotka ovat laadullisesti täysin erilaisia. Ne kannattaa erottaa.
Synteettinen data tarkoittaa yleensä olemassa olevan kyselydatan laajentamista tilastollisen mallinnuksen tai koneoppimisen avulla.
Se on läpinäkyvää työtä: tiedetään mihin data perustuu, miten malli on rakennettu ja miten sen luotettavuutta on arvioitu. Se on kuin olisit saanut jostain ravintolasta hyvän reseptin ja yrität toistaa sen kotikonstein. Mahdollisuudet jonkinlaiseen onnistumiseen ovat olemassa, vaikka alkuperäistä tasoa ei saavutettaisikaan.
Synteettiset vastaajat tarkoittavat taas sitä, että kielimallille annetaan rooli. Yksinkertaistettuna “olet nyt 35-vuotias helsinkiläinen perheenäiti”, ja se vastaa kysymyksiin tästä näkökulmasta.
Käytännössä tätä voidaan käyttää niin, että synteettiset vastaajat täyttävät kokonaisia tutkimuslomakkeita ja rakennetaan kokonaisia vastausaineistoja ilman oikeita vastaajia.
Tässä on kyse enemmänkin siitä, että olet käynyt syömässä ravintolassa hyvää ruokaa, kuvailet sitä puhelimessa ystävällesi, joka sitten yrittää tehdä saman annoksen. Lopputulos on mitä on.
Synteettisten vastaajien kohdalla on vielä eri tasoja. Yksinkertaisimmillaan kielimallille annetaan vain demografinen kuvaus ilman omaa aineistoa, joka on todellinen uskonhyppy.
Synteettisillä vastaajilla voi olla taustalla myös oma koulutusaineisto, jolloin ollaan jo lähempänä perusteltua työtä. Pisimmälle vietynä puhutaan digitaalisista kaksosista, joissa oikeasta tunnetusta henkilöstä rakennetaan mahdollisimman tarkka digitaalinen kopio, joka on koulutettu hänen todellisella käyttäytymis- ja asenneaineistollaan.
Aikamoinen himmeli siis. Ja kuten aina, valitettavasti juuri yksinkertaisinta versiota, kouluttamattoman kielimallin käyttämistä vastaajana, käytetään todennäköisesti eniten ja keveimmin perustein. Mikä on yksinkertaisesti pelottavaa.
Mitä kielimalli oikeasti tekee
Jos puhutaan LLM-pohjaisesta synteettisestä datasta, niin kielimalli ei mallinna ihmisen käyttäytymistä. Se ennustaa tekstiä. Sillä ei ole mitään aavistusta siitä, mitä ihmiset tuntevat tai aikovat tehdä ensi viikolla.
Tässä on yksi yksinkertainen mutta terävä pointti: me kuluttajina emme käytä kielimalleja tekemään ostopäätöksiä puolestamme. Jos käyttäisimme, kielimalleilta kysyminen ihmisten sijaan voisi olla järkevää. Mutta harva käyttää, joten siksi homma ei toimi.
Laadukkaampi synteettinen data on läpinäkyvämpää mallinnustyötä, jossa tiedetään mihin se perustuu ja jossa luotettavuutta voidaan edes jollain tasolla validoida. Synteettisten vastaajien kanssa kuljetaan etupäässä hyvän uskon varassa.
Miksi kielimallien tuottama data silti tuntuu niin uskottavalta?
Siksi, koska kielimallit on optimoitu kuulostamaan järkevältä. Niitä ei ole optimoitu olemaan totuudenmukaisia. Teksti on sujuvaa, loogista ja vakuuttavaa. Ja ihmismieli on erittäin hyvä perustelemaan itselleen asiat, jotka kuulostavat uskottavilta.
Uskottavuus ja totuudenmukaisuus eivät ole sama asia. Markkinatutkimuksessa tämä ero on kriittinen, koska tulosten perusteella tehtävät päätökset voivat olla valtavia investointeja.
Olennaista ei ole saada vakuuttavan kuuloisia vastauksia. Olennaista on ymmärtää oikeita ihmisiä ja oikeaa käyttäytymistä.
Voiko synteettiseen dataan luottaa
Ei samalla tavalla kuin kyselydataan. Ei missään nimessä.
Synteettiseen dataan, jonka taustalla on vahva primääriaineisto ja luotettava mallinnuspohja, voi luottaa varauksella, jos se on huolellisesti validoitu aitoa vastaajadataa vasten. Se on perusteltua työtä. Mutta edelleen varauksella, haasteet ovat suuria.
Yksi keskeinen ongelma on, että perinteiset luotettavuuden mittarit kuten virhemarginaalit tai luottamusvälit eivät päde synteettisen datan kanssa, koska emme puhu otantatutkimuksesta.
Kaikki datan luomiseen käytetty mallintaminen tuo dataan lisäepävarmuutta. Kuinka paljon lisäepävarmuutta syntyy, on todella haastavaa estimoida. Paljon, mutta paljonko on paljon?
Synteettisiin vastaajiin luottaminen on sitten vielä paljon heikommalla pohjalla. Jos pyydät kielimallia näyttelemään samaa henkilöä uudelleen, muutat vaikka yhden sanan promptissa tai käytät eri palvelua, tulokset ovat erilaisia.
Mihin vastauksista luotat?
Suurin ongelma ei ole edes se, että synteettiset vastaajat olisivat aina väärässä. Suurin ongelma on se, että et koskaan voi olla varma, ovatko ne oikeassa vai väärässä.
Hauska tai surullinen seikka, miten sen ottaa: markkinatutkimusalaa on kritisoitu enenevissä määrin siitä, että luotettavan datan saaminen on entistä vaikeampaa. Mutta miten ihmeessä synteettinen data olisi tähän ratkaisu? Synteettinen data, jonka on pohjauduttava siihen kyselydataan. Synteettinen data, jossa luotettavuus ja sen arviointi on valtavan paljon suurempi haaste. Synteettinen data, jossa kaikki virheet ja vinoumat vain korostuvat.
Synteettinen data on altis väärinkäytöksille
Synteettinen data voi vahvistaa virheellisiä oletuksia. Mutta ei aseteta tästä synteettistä dataa tikunnokkaan, niin voi mikä tahansa data väärinkäytettynä.
Synteettisten vastaajien kohdalla tähän mennään kuitenkin erityisen helposti, ja se voi olla tahatonta tai tahallista. Synteettisen datan kanssa saa millaisen tarinan haluaa säätämällä parametreja ja prompteja.
Toki, rehellisyyden nimissä: myös perinteisessä tutkimuksessa kysymysten muotoilulla voidaan ohjata tuloksia, jos joku niin haluaa tehdä.
Mutta vaikka kyse ei olisi tahallisesta vääntelystä, kielimalli tuottaa harvoin mitään yllättäviä vastauksia. Se kulkee kultaista keskitietä. Synteettinen vastaaja on kiltti ja kuuliainen. Se haluaa vahvistaa sitä, mihin jo valmiiksi uskot. Oikea vastaaja voi olla yllättävä, odottamaton, jopa ärsyttävä.
Ja siitä löytyvät ne kultahiput.
Liiketoiminnassa poikkeamat ja hajonnat ovat usein kiinnostavampia kuin keskiarvot. Keskiarvoinen ratkaisu harvoin kiinnostaa ketään.
Mistä laadun tunnistaa?
Synteettistä dataa tai synteettisiä vastaajia ostavan tai käyttävän on hyvä esittää neljä peruskysymystä:
- Millaiseen primääridataan synteettinen data perustuu?
- Mitä ajanjaksoa tämä primääridata kuvaa?
- Miten synteettisen datan rakentamiseen käytetty malli on koulutettu?
- Miten synteettinen data on validoitu aitoa primääridataa vasten?
Jos näihin ei saa selkeää vastausta, hälytyskellojen pitäisi soida.
Jos synteettinen data on ammattitaitoisesti luotua, vastaukset kyllä löytyvät.
Synteettisten vastaajien kohdalla vastauksia ei usein yksinkertaisesti ole. Sekin on jo itsessään merkittävä vastaus.
Voidaan tarkastella, näyttävätkö jakaumat samanlaisilta kuin primääridatassa, mutta se ei vielä riitä mihinkään. Vaikka se näyttäisi ankalta, kävelisi kuin ankka ja vaakkuisi kuin ankka, niin tässä tapauksessa se ei vielä varmista, että kyseessä olisi ankka. Muuttujien väliset riippuvuussuhteet kertovat jo huomattavasti enemmän, ja niiden tarkastelu ja vertailu aineistojen välillä on avainasemassa.
En ole juuri törmännyt tapauksiin, joissa samassa aineistossa olevaa synteettistä dataa ja primääridataa ei olisi pystytty erottamaan toisistaan tilastollisin menetelmin. Jos ne pystytään erottamaan, ei aitoa dataa ole onnistuttu kovin tehokkaasti jäljittelemään.
Missä mennään pieleen
Varmin tapa epäonnistua synteettisen datan luomisessa on se, että taustalla käytetty primääridata on laadultaan heikkoa, vanhaa tai vinoutunutta.
Ja tähän liittyy yksi olennainen perusasia: synteettistä dataa luotaessa ei synnytetä uutta. Siinä vain vahvistetaan ja laajennetaan sitä, mitä on jo olemassa.
Myös virheitä, ja erityisesti virheitä.
Jos lähtötilanne on heikko, lopputulos on vielä huomattavasti heikompi.
Ja vielä yksi asia, joka täytyy pitää mielessä: synteettinen data on yhtä tuoretta kuin sen luomiseen käytetty primääridata. Mallintaminen ei sitä uudemmaksi muuta.
Jos vuonna 2026 luodaan synteettistä dataa vuoden 2020 primääriaineistosta, se luotu synteettinen data on vuoden 2020 dataa. Ei vuoden 2026 dataa.
Kyseessä on siis kokonaisuudessaan perinteinen roskaa sisään, roskaa ulos -tilanne.
Synteettinen data ei pysty myöskään hallitsemaan uusia tilanteita. Jos alkuperäinen primääridata ei kata skenaariota, mitä siltä kysytään, ei vastausta löydy synteettisestä datastakaan.
Uudet tuotteet, uudet kohderyhmät, uudet markkinointiviestit, uudet markkinat.
Juuri tämäntyyppisiin kysymyksiin yritykset haluavat usein nopean vastauksen. Ja juuri silloin synteettinen data on vaarallisimmillaan.
Mutta se on dataa, joten siihen luotetaan. Liikaa.
Vaikka käytetyn aineiston totuudenmukaisuudesta ei olisi mitään tietoa, voidaan sanoa, että päätös perustuu dataan.
Voin minäkin sanoa yrittäneeni korkeushypyn maailmanennätystä. Ei kenenkään tarvitse tietää, että yritys jäi metrin riman alapuolelle.
Missä se sitten voi toimia
Tiedän, kuulostan skeptiseltä. Kun seuraan tätä markkinan pöhinää, jossa terve kriittisyys tuntuu olevan kateissa, on jonkun syytäkin toimia unilukkarina.
Enkä onneksi ole ainoa.
Mutta synteettinen data voi olla hyödyllinen työkalu. Tulen aivan varmasti itse käyttämään sitä jatkossa enenevissä määrin. Tietyt metodologiset realiteetit eivät vain katoa mihinkään, ne on vain tunnistettava.
Synteettisen datan paras käyttöpaikka on silloin, kun sitä käytetään laadukkaan ja laajan primääridatan hallittuun laajentamiseen. Puhutaan esimerkiksi haastavien kohderyhmien otoskoon kasvattamisesta. Tällaista toki on tehty ennenkin, se ei ole ollut vain niin seksikästä eivätkä metodit niin tehokkaita kuin nyt.
Synteettiset vastaajat ovat taas loistavia sparrikumppaneita. Voit pallotella ajatuksia, testata ideoita ja hypoteeseja ja viedä omaa ajatteluasi eteenpäin. Saat ehkä selville asioita, mitä ei kannata lähteä tutkimaan yhtään alkua pitemmälle.
Synteettinen data ja synteettiset vastaajat ovat hyviä suunnanantajia. Lopullisia liiketoimintapäätöksiä niiden varaan harvoin kannattaa perustaa.
Synteettinen data voi korvata jotain prosessin alkuvaiheen testausta, eikä ihan jokaista asiaa tarvitse lähteä kysymään oikeilta ihmisiltä. Mutta ennen lopullisia investointipäätöksiä ihmisiltä on kysyttävä, sitä ei pääse pakoon.
Moni kysyy, että korvaako synteettinen data perinteisen kyselytutkimuksen.
Jos sen kysyy synteettisen datan myyjältä, se korvaa jo nyt.
Jos sen kysyy tilastotieteilijältä, se tuskin sitä tulee korvaamaan.
Kumpaa uskot?
Ja lopulta, kuten aina, totuus löytyy jostain välimaastosta. Mutta synteettisen datan ja synteettisten vastaajien suurin arvo tutkimuksissa on se, että ne tehostavat prosessia. Ja se on valtava arvo jo itsessään.
Mutta aina kun puhumme synteettisestä datasta, on muistettava, että se ei synny tyhjästä. Se kierrättää, laajentaa ja yhdistää jo olemassa olevaa. Sen taustalle tarvitaan aina suuri määrä laadukasta, ajankohtaista primääridataa.
Ja jostain se on hankittava.
Mutta jos yhden yksinkertaisen ohjeen kiteyttää, niin se voisi kuulua seuraavasti:
Testaa synteettisesti, validoi oikeasti.
Taas yksi hopealuoti
Markkinoinnissa ja markkinatutkimuksessakin on aina haettu hopealuoteja. Kun joku tarpeeksi vakuuttavasti sanoo, että tämä toimii kaikille, kaikkialla ja kaikissa tilanteissa, etkä tarvitse mitään muuta, iso joukko seuraa kyseenalaistamatta perässä.
Vieläkään en voi käydä edes ravintolan vessassa ilman, että saan välittömästi perääni kysymyksen ”äskeisen asiointisi perusteella, suosittelisitko meitä tuttavallesi?”
Onko synteettinen data taas yksi tällainen hopealuoti? Markkinointi tekee tehtävänsä, pöhinä on valtaisaa, ja harva tutkii asiaa pintaa syvemmältä.
Todellisuudessa synteettinen data voi olla loistava tukielementti, mutta selkärangaksi siitä ei ole. Sen kanssa voi sparrata, mutta päätöksiä sille ei kannata antaa.
Hyvä perussääntö on yksinkertainen: jos päätös maksaa aitoa rahaa, sen pohjalla pitää olla aitoa dataa.
Markkinatutkimuksen ydin on oppia ihmisiltä. Ihmistä ymmärtää kysymällä ihmiseltä. Ihmistä kaikkine kiemuroineen synteettinen data ei pysty korvaamaan, mutta täydentää se voi.
Oikein käytettynä synteettinen data nopeuttaa ajattelua.
Väärin käytettynä se alkaa korvata ajattelua.
Mikä on itseasiassa sama asia, mikä pätee kaikkeen generatiivisen tekoälyn käyttöön. Ja tämä on tärkein asia, mikä tästä kannattaa muistaa.

