Asuntojen hinnoittelu

Tekoäly asuntokaupoilla: eläkeläiset ja tekoälyn etiikka

Tekoäly asuntokaupoilla -blogisarja jatkuu tarkastelemalla alueen vaikutusta asunnon myyntihintaan. Ennen kuin mennään itse tuloksiin, on kuitenkin syytä hetkeksi avata käytettyjä menetelmiä. Tekoälyn eettisen käytön kannalta vähintään yhtä tärkeää kuin tulokset on tapa jolla ne on johdettu.

Blogisarjassa tarkastelin aikaisemmin asuntojen sijaintia matka-ajan kannalta ja tämän vaikutusta toteutuneeseen kauppahintaan, mutta eri asuinalueiden ominaispiirteiden vaikutusta myyntihintohin voidaan tarkastella myös tarkemmalla tasolla. Apuna tällä matkalla on Tilastokeskuksen kokoama Paavo-aineisto eli Postinumeroalueittainen avoin tieto[i] ja siitä johdetut tunnusluvut.

Postinumeroalueen ominaispiirteiden kuvailu

Tilastokeskuksen Paavo-aineisto tarjoaa suoraan yli 100 postinumeroon liitettävissä olevaa tunnuslukua. Kaikki nämä eivät ole kuitenkaan suoraan mielekkäitä analyysimme kannalta, vaan esimerkiksi ylemmän korkeakoulututkinnon suorittaneiden kokonaismäärän sijaan on mielekkäämpi tarkastella korkeakoulutettujen osuutta postinumeroalueella. Käytännössä alkuperäiset 100 tunnuslukua antavat noin toiset sata suhdelukua ehdokkaiksi alueiden arvoa kuvaamaan.

Tämän lisäksi osa Paavo-aineiston tiedoista on sellaisia, että niitä on järkevämpi tarkastella kuntatasolla. Esimerkiksi työpaikkojen lukumäärä ja laatu postinumeroalueella ei välttämättä kuvaa isoissa kaupungeissa kyseisen alueen kiinnostavuutta, vaan mielekkäämpi on tarkastella kunnan tai jopa työssäkäyntialueen työpaikkalukuja. Kuntatasolle laskemalla saadaan helposti 200 uutta muuttujakandidaattia, jolloin tullaankin analyysimme toiseen tekoälyä vaativaan osuuteen.

Tai oikeampi olisi ehkä puhua tukiälystä, sillä kokeilujen jälkeen hurja hinnoittelija totesi, että muuttujavalintaa ei voi jättää pelkästään tekoälyn huoleksi. Periaatteessa voisi kuvitella, että erilaisilla tilastollisilla kriteereillä muuttujaehdokas kerrallaan kyettäisiin pudottamaan pois, mutta sopivaa menetelmää tähän ei löytynyt mitenkään helposti. Analyysiä varten päädyttiin tämän vuoksi ensin karsimaan muuttujaehdokkaita ihmisvoimin noin neljäsosaan alkuperäisestä eli käytännössä hieman yli 100 muuttujaan. Vasta tämän jälkeen lähdettiin loppujen sopivuutta testaamaan laskennan keinoin. Lopulta tietokone päätyi ehdottamaan hieman alle 40 aluetta kuvaavaa muuttujaa, jotka sen mielestä parhaiten selittivät eri asuntojen välisiä hintojen vaihteluita.

Niin mielenkiintoista kuin yksittäisten muuttujien vaikutusta alueen hintatasoon olisikin tarkastella, tämä ei ole aivan ongelmatonta. Muuttujakandidaatit eivät ole täysin riippumattomia toisistaan ja muuttujavalinnassa joutuu olemaan tarkkana, jotta vältetään multikollineaarisuusongelmia. Tarkastellaan tätä seuraavaksi esimerkin kautta.

Esimerkki kuvailevasta muuttujasta: eläkeläisten osuus alueella

Ei ole etukäteen itsestään selvää, miten alueen väestön ikärakenne vaikuttaa asuntojen hintatasoon alueella. Esimerkiksi eläkeläisten suuri osuus voi kertoa alueesta, jolla palvelut ovat lähellä ja jonka voisi ajatella houkuttelevan myös uusia maksukykyisiä eläkeläisiä, jolloin kysyntä nostaa hintatasoa. Tai sitten eläkeläisten suuri osuus voi kertoa hiipuvasta alueesta, jolla asuntoja tulee tarjolle enemmän kuin niitä kysytään, mikä laskee hintatasoa.

Eläkeläisten merkitykseen eri asuinalueiden elinvoiman kannalta pääsee pureutumaan Tilastokeskuksen Paavo-aineistossa parillakin eri tavalla. Tarjolla on toisaalta talouksien elämänvaihe -tilasto (TE), josta vuonna 2019 julkaistiin vuoden 2017 tilasto. Tai asukkaiden pääasiallinen toiminta -tilasto (PT), josta löytyy vuotta aiempi tilasto. Kun kyseisistä tilastoista lasketaan eläkeläisten tai eläkeläistalouksien osuus postinumeroalueittain, havaitaan, että muuttujat korreloivat hyvin vahvasti keskenään. Tämä on ongelmallista monimuuttujaregressiomallin kannalta. Tavallaan voisi sanoa, että jos molemmat muuttujat otetaan mukaan malliin kandidaateiksi, ne lähtevät kilpailemaan keskenään, kumpi saa puhua eläkeläisten puolesta asuntoja hinnoiteltaessa, ja hetken kuluttua on vaikea sanoa, kumpaa uskoa. Tällöin hyvin pienet satunnaiset erot voivat päättää pelin jommankumman hyväksi – tai sitten saattaa käydä niin, että molemmat pääsevät malliin, mutta selittävät vastakkaisiin suuntiin.

Intuitiivisesti lienee järkevää ottaa malliin mukaan tuoreempi muuttuja eli elämänvaiheen pohjalta laskettu, kuvaahan se tilannetta lähempänä myyntihetkeä kuin pääasiallisen toiminnan pohjalta laskettu. Lisäksi asuntojen kysyntää ja tarjontaa todennäköisesti kuvaa pikemminkin talouksien kuin yksittäisten asukkaiden elämänvaihe. Mutta esimerkin vuoksi kurkistetaan muutamaan pisteeseen vertailussa, jotta saamme ymmärrystä millaisia todellisen elämän tilanteita tilastojen taakse kätkäytyy.

Eläkeläisten osuutta voidaan mitata usealla mittarilla. Esimerkki havainnollistaa tekoälyn etiikkaan liittyviä kysymyksiä huolellisuudesta mallin rakentamisessa.
Kuva 1: Tilastokeskuksen Paavo-aineistosta johdettujen muuttujien tarkastelua – kumpaa muuttujaa pitäisi käyttää kuvaamaan eläkeläisten osuutta postinumeroalueella?

Kurkistuksia datapisteiden taakse

Jos katsotaan ensiksi pistettä A, taustalta paljastuu postinumeroalue 70240 eli Niuvaniemen sairaala-alue Kuopiossa. Alueella ei ole asuntoja kaupan, joten analyysimme kannalta kyseisellä pisteellä ei ole merkitystä, eikä hurja hinnoittelija siksi lähde arvailemaan miten oikeuspsykiatrisen sairaalaan potilaita tilastoissa käsitellään.

Pisteestä B löytyy Sallan Hirvasvaaran postinumeroalue 98760, jossa eläkeläisten osuus talouksista on merkittävästi korkeampi kuin asukkaista. Tämä oletettavasti selittyy sillä, että iso osa alueen eläkeläisistä asuu yksin omassa taloudessaan – eläkeläisiä on alueen asukkaista puolet ja jos vielä esimerkiksi puolet eläkeläisistä asuu yksin ja muut kahden tai useamman hengen talouksissa, eläkeläistalouksien osuus nousee alueella lähes kolmeen neljäsosaan. Tämä selittäisi, miksi talouksien kannalta tarkasteltuna eläkeläisten osuus korostuu vielä asukkaista laskettua osuutta enemmän.

Tekoälyn etiikka: menetelmien iso rooli

Ylläoleva eläkeläisesimerkkimme konkretisoi hyvin ongelmaa, joka sisältyy tekoälyalgoritmien kehitykseen. Mallin luojalla on itse asiassa todella iso vastuu siinä, että käytetyt menetelmät ovat tarkoituksenmukaisia ja mahdolliset virhelähteet tulevat huomioiduiksi.

On aiheellista pelätä, että houkutus oikaista on monesti suuri. Tekoälyprojekti, jossa datan keräämiseen ja muokkaamiseen on kulunut odotettua enemmän aikaa, voidaan yrittää saada palautettua aikatauluun oikaisemalla mallin testauksessa ja validoinnissa. Aikapaineen vuoksi voidaan oikeasta ja todeta, että lopputulos on riittävän hyvä ilmiön selittämisessä ja mallin antamat tulokset ensi testeissä ihan järkeenkäypiä. Tällöin malli saattaa tulla hyväksytyksi käyttöön vaikka se kätkisi sisäänsä isoja ongelmia.

Ongelmaa pahentaa se, että esimerkin kaltainen multikollineaarisuusongelma ei ole ihan yleissivistystä. Toisaalta koneoppimisen demokratisoitumisesta ja osaamisen leviämistä pienen datatieteilijöiden salaseuran ulkopuolelle on syytä tervehtiä hyvänä kehityskulkuna niin tekoälyn hyötyjen tasaisemman jakautumisen kuin siihen liittyvien pelkojen hälventämiseksi. Toisaalta taas menetelmien käyttäminen edellyttää kuitenkin ymmärrystä mahdollisista niihin liittyvistä ongelmista ja osaamista virheiden poistamiseksi.[ii]

Tekoälyn käytön etiikka on vasta vahvasti muodostumassa, mutta esimerkki kuvastaa, että algoritmilla on syytä olla selkeä kehittäjä ja/tai omistaja, joka kykenee kertomaan, mitä menetelmiä mallia rakennettaessa on käytetty ja mitä testejä on tehty (tai jätetty tekemättä). Myös mallin tilaajalla on iso vastuu peräänkuuluttaa oikeellisuutta nopeuden sijaan – yritysjohdon tekoälyosaamisen tarve tulee epäilemättä korostumaan tulevaisuudessa.

Miten alueen ikärakenne vaikuttaa asuntojen myyntihintoihin?

Lopulliseen malliin selviytyy muuttujien merkitsevyyttä tarkastelevan tekoälyalgoritmin jälkeen kaksi muuttujaa jotka kuvaavat harmaiden panttereiden levinneisyyttä alueella: kuvassa 1 pystyakselilla esitetty eläkeläistalouksien osuus toisaalta alueella ja toisaalta koko kunnassa. Näiden lisäksi on toki muitakin perheiden elämänvaiheita kuvailevia muuttujia jotka näkyvät alueen asuntojen hinnoittelussa, esimerkiksi nuorten yksinasuvien talouksien ja opiskelijoiden osuus kunnassa, mutta keskitytään tässä artikkelissa eläkeläisten vaikutukseen asuntojen hintoihin.

Taulukossa 1 on esitetty datasta lasketut eri muuttujien keskiarvot, kun alueiden tunnuslukuja painotetaan toteutuneiden asuntokauppojen mukaan. Taulukossa 2 on puolestaan esitetty mallin antama ennuste sille, miten toteutunut neliöhinta vaihtelee alueen ominaispiirteiden mukaan. Kannattaa huomata, että taulukossa 1 ei ole esitetty Suomen kaikkien postinumeroalueiden ja kuntien tunnuslukuja, vaan taulukon keskiarvot ja kvartiilit on laskettu painotettuna tehtyjen asuntokauppojen mukaan.

Eläkeläisten taloudet, 2017 (TE) osuusEläkeläisten taloudet, 2017 (TE) osuus kuntataso
Keskiarvo28 %28 %
Minimi6 %22 %
25% kvartiili23 %25 %
50% kvartiili28 %27 %
75% kvartiili34 %31 %
Maksimi56 %53 %

Taulukko 1: Eläkeläisten keskimääräinen osuus toisaalta postinumeroalueella ja toisaalta kunnassa painotettuna alueella tehtyjen asuntokauppojen määrällä.

Vaikutus toteutuneeseen neliöhintaan (keskiarvoalue = 0 €/m2)Eläkeläisten taloudet, 2017 (TE) osuusEläkeläisten taloudet, 2017 (TE) osuus kuntataso
Minimi-287-322
25% kvartiili-62-178
50% kvartiili-2-60
75% kvartiili78152
Maksimi3711317

Taulukko 2: Alueen ominaispiirteiden (tässä tapauksessa eläkeläisten osuuden postinumeroalueella ja kunnassa) vaikutus toteutuneeseen myyntihintaan kun muiden tekijöiden vaikutus poistetaan.

Yhteenveto

Tuloksista näkyy, että eläkeläistalouksien suhteellisen suuri osuus alueella ja etenkin kunnassa on yhteydessä jonkin verran korkeampiin toteutuneisiin neliöhintoihin. Maksimi- ja minimiarvoihin kannattaa suhtautua varauksella, mutta 25%-75% kvartiilin arvot näyttävät todennäköisesti melko luotettavasti suuntaa ilmiölle. Se, että kuntatason vaikutus on suurempi kuin alueen vaikutus, voi viitata siihen, että tietyn alueen lähipalveluiden merkitys on kuitenkin pienempi kuin ylipäänsä maksukykyisten eläkeläisten osuus kunnan alueella. Tulkintaa on kuitenkin vaarallista viedä kovin pitkälle, sillä analyysissä on tarkasteltu vain alueita, joilla asuntokauppoja ylipäänsä tehdään. Esimerkiksi aiemmin tarkastelemastamme Sallan Hirvasvaarasta ei kauppoja aineistossa löydy. Tämän vuoksi on turvallisempaa puhua alueen houkuttelevuudesta ylipäänsä useamman muuttujan yli tarkasteltuna kuin lähteä tekemään liian pitkälle meneviä tulkintoja yksittäisistä muuttujista.

Blogisarja asuntojen hinnoittelusta siirtyy tämän artikkelin myötä käsittelemään alueen ominaispiirteiden merkitystä asuntojen myyntihintojen kannalta. Ennen syvempää tarkastelua oli kuitenkin tarpeen kuvata menetelmiä, joilla alueiden ominaispiirteitä on analyysissä mallinnettu. Samassa yhteydessä oli tärkeä pohtia menetelmiin ja mallin rakentamiseen liittyviä eettisiä kysymyksiä. Näitä tutkittiin tässä esimerkkinä alueen ikärakenteen merkitys asuntojen hinnoittelulle.


[i] https://www.stat.fi/tup/paavo/index.html

[ii] Regressionanalyysin rajoitteita on hyvin visualisoitu esim. Tampereen yliopiston menetelmäopetuksen sivuilla.