Datan ja tiedon rajamailla

22.1.2018

TV:n keskustelussa asiantuntija huomautti, ettei erään tutkimuslaitoksen laskentamallissa oltu huomioitu tekijää, joka varmasti vaikuttaisi lopputulokseen. Näin saattoi ollakin. Keskustelijat nyökyttelivät: mallissa on puutteita, paha juttu! Vaadimme lisäyksen! Mutta he eivät tarkemmin ruotineet minkä luonteinen tämä puute oli ja eritoten mihin sen paikkaaminen voisi perustua.

Kyse oli oletetusta vaikutuksesta.

Siis tutkijakielellä: hypoteettisesta vaikutuksesta tulevaisuudessa. Ei ihan sellaisesta, josta olisi aiempia vertailukelpoisia esimerkkejä samassa toimintaympäristössä. Otaksuttuja vaikutustekijöitä voi olla lukematon määrä ja jokaisella on mielipide siitä, kuinka suuri tuo vaikutus tulisi olemaan. Ja toden totta: jokaisen mallin ulkopuolelle jää aina loputon määrä asioita, joita siihen ei sisälly.

Mitään sellaista konkreettista havaintoaineistoa tai tilastoa ei kuitenkaan keskustelussa mainittu, josta kaivatun vaikutuksen suuruuden voisi päätellä. Oli vain ilmaan heitetty ajatus, että joku vaikutus tälläkin asialla olisi, ja se tulisi sisällyttää laskentamalliin, jotta saisimme oikeamman tuloksen.

Koska en tarkemmin tuntenut keskustelun aihetta, saattoi olla etten vain huomannut jotain. Mutta kysyn mitä toimittajalta jäi kysymättä: miten?

Laitetaanko 30 %:n vaikutus? Kuka kannattaa 60 %:n vaikutusta? Tuleeko vielä muita tarjouksia? Lukitaanko vastaus? Voiko jonkin aineiston perusteella estimoida, mikä vaihtoehto olisi todennäköisempi kuin toinen. Voi toki laskea kaikilla vaihtoehdoilla, mutta mikä tuloksista raportoitaisiin? Kaikkiko? Saattaa se tulos olla sitten 0 % tai 100 %, mutta saattaahan se olla olemattakin. Mistäpä viirukissa tuon tietää. Ja tässä oli kyse vasta yhdestä vaikutustekijästä.

Tutkimus ei ole vain otaksumien paketti

Jos yhä suurempi osa mallista perustuisi tällaisiin hypoteettisiin lisävaikutuksiin, voisiko sitä enää sanoa tieteelliseksi tutkimustulokseksi vai pelkästään oletusten vyyhdiksi?

Sen sijaan, että kysytään mitä vaikutustekijöitä mallista puuttuu, tulisi ehkäpä kysyä mitä olennaista dataa mallista puuttuu ja sitten esittää se aineisto, toiveiden tynnyrin sijaan.

Uskottavan tutkimuksen ei tulisi olla vain olettamuksista koottu verkosto vaan paremminkin aineistoihin pohjautuva päättelyverkosto. Tietämisellä ja asioiden realistisella arvioimisellakin on vissi rajansa. Monenlaista olisi mukava tietää, mutta vain joistain kysymyksistä on olemassa – tuotettavissa - hankittavissa soveltuvaa aineistoa. Silloinkin niitä yhdistelevään päättelyyn sisältyy aivan riittämiin epävarmuustekijöitä. Uskokaa pois. Edes Big Data ei aina riitä.

Vanha suomalainen sananlasku sen tietää

"Yksi hullu kysyy enemmän kuin kymmenen viisasta ehtii vastata."

Kysyminen on aina helppoa, lähes vastustamattoman helppoa. Mutta kaikki kysymykset eivät ole edes tieteellisesti ratkaistavissa. Pientä nöyryyttä on tunnustaa, että kenenkään tiedot eivät ole niin laajat, eikä edes lähitulevaisuudessa niin paljon laajennettavissa, että aivan mitä tahansa voidaan kysyä puolivuotisessa projektissa ja tutkija pystyy siihen vastaamaan vaikka tyhjästä. Ainahan ekspertti voi arvioida, jos ei voi tutkia. Vai voiko? Tutkitaan. Estimoidaan. Arvioidaan. Otaksutaan. Pohditaan. Laskennallinen mallikaan ei synny hetkessä, mutta on nopea käyttää uudelleen kun se on valmiina.

On ehkä sittenkin vain kolmenlaisia ongelmia: mahdottomia, triviaaleja ja epätriviaaleja, mutta kenties mahdollisia. Eikä sekään varmaa ole. Sekä mahdottomat että triviaalit eivät vaikuta kovin hedelmällisiltä kohteilta. Tosin eilisen mahdoton voi olla huomisen mahdollinen.

Ja sitten hieman laskennallista päättelyä

Epävarmuuksia voi ja pitää analysoida malleissa, mutta sekin täytynee perustua johonkin. Tilastotieteessä epävarmuuksia lasketaan kvantitatiivisesti. Empiristi-filosofi David Humen (1711 - 1776) mukaan nimetty Humen haarukka perkaa asiat ideoiden suhteisiin ja tosiasioihin. Kuitenkin Humen mukaan toiset tosiasiat ovat todennäköisempiä kuin toiset. Tekijää A koskeva väittämä "A=10 %" voi olla paljon todennäköisempää kuin väittämä "A=30 %". Ja nyt tarkkana: havaintoihin B nojaamalla tämä voidaan onnistua laskemaan Bayesin kaavasta P(A | B) = P(B | A)P(A)/vakio, jonka oikeastaan matemaatikko ja tähtitieteilijä Pierre-Simon Laplace (1749 - 1827) esitti.

Kaavaan sisältyy havainnoista päättelyn periaate. Ennen kuin havainnot B on lyöty pöytään, meillä on vain lähtökohtainen epävarmuus tekijästä A eli priorinen todennäköisyys P(A), joka voi perustua kalpean harmaaseen aavistukseen "A voi olla yhtä mahdollisesti mitä vain väliltä 0 % - 100 %". Ja siihen harmauteen tietomme jäisikin, ellei aineisto B auta kertomaan, mikä lopulta on todennäköisintä: P(A | B). Joskus se voi kertoa paljon, joskus vähemmän.

Jos taas aineisto B poistetaan, jää käteen vain kova luu, eli P(A) mitä voisi pitää jo nollatuloksena: "Tämän verran voisimme arvata ilmankin dataa." Kaavaan sisältyvä osa P(B | A) on tutkijalle tärkein. Monet tilastotieteen menetelmistä perustuvatkin erityisesti vain tähän osaan. Se määrittelee minkälaisia havaittavia seurauksia B voi olla, mikäli asia A olisi totta ja mitkä ovat seurauksien B todennäköisyydet kullakin mahdollisella vaihtoehdolla A.

Tämä on empiirisen tieteen peruspilari: tutkittavalla hypoteesilla pitää olla havaittavia seurauksia, joiden perusteella sitä voi arvioida. Jos näin ei olisi, ei olisi mitään keinoa osoittaa mitään A:ta koskevaa väitettä sen paremmin oikeaksi kuin vääräksi, koska mikään havainto ei sitä puoltaisi tai kieltäisi. Niin myös näyttöön perustuva riskinarviointi nojautuu nimensä mukaisesti dataan, hyödyntäen nykyaikaisia menetelmiä.

Edesmennyt VTT:n tutkimusprofessori Urho Pulkkinen opetti, mitä kvantitatiivisessa probabilistisessa riskinarviointimallissa ei tule olla Delfoin oraakkeleita.

Sellaisiksi sanotaan vahvoja oletuksia, jotka eivät näytä tulevan mistään.

Hyvä neuvo. Kiitos Urho!

"Kerro keisarille, että Apollonilla ei enää ole kotia, temppeli on sortunut, ennustavaa laakeripuuta ja puhuvaa lähdettä ei enää ole. Sen vesi on vaiennut."

Lisätietoja:
matemaatikko, tutkimusprofessori Jukka Ranta, Eviran riskinarvioinnin tutkimusyksikkö, jukka.ranta@evira.fi

 

Aihealueet: