Asuntojen hinnoittelu

Veronkiertoa ja rahanpesua eli milloin tekoäly erehtyy

Tekoäly tuottaa usein uutta ymmärrystä myös silloin kun se erehtyy. Tarkastelemalla datapisteitä joissa mallin ennuste poikkeaa suuresti todellisesta toteutuneesta myyntihinnasta voidaan saada uusia näkökulmia tutkittavaan ilmiöön ja sitä kautta kehittää mallia edelleen. Toisaalta löytyy myös tilanteita, joissa malli on todennäköisesti enemmän oikeassa kuin data – asuntojen hinnoittelun tapauksessa tekoäly siis antaa oikeamman kuvan kauppahinnasta kuin toteutunut kauppahinta, sillä jostain syystä kauppa tehdään markkinahinnasta huomattavasti poikkeavaan hintaan. Tällä kertaa asuntojen hinnoittelu käsittelevässä blogissa tuleekin katettua lähes koko Suomi, kun hinnoittelun salojen perässä matkataan Hangosta Rovaniemelle.

Pienten paikkakuntien poikkeukselliset kohteet

Aineistossa on 108 kohdetta, joista mallin mukaan ei kannattaisi maksaa mitään, mutta joilla on kuitenkin käyty kauppaa keskimäärin 500 euron neliöhintaan.  Nämä on merkitty A:lla kuvaan 1 ja ne jakautuvat kaikkiaan 63 eri postinumeroalueelle. Näissä tekoäly selvästi erehtyy, ja on mielenkiintoista tutkia tarkemmin miksi näin käy.

Suurin osa on yksittäisiä kohteita alueilla, joiden hintatason selittämisestä malli keskimäärin suoriutuu muuten vähintään kohtuullisesti. Tarkempi tarkastelu paljastaa, että nämä ovat isoja keskimäärin 147 neliön asuntoja alueilla, joilla normaalisti käydään kauppaa huomattavasti pienemmistä eli keskimäärin 85 neliön asunnoista. Tässä näkyy siis nykymuotoisen mallin haaste – isojen pienemmillä paikkakunnilla sijaitsevien kohteiden hinnoittelu poikkeaa yleisestä logiikasta. Tämä havaittiin jo Oulun Kiimingin ja Kellon hintatasoa tutkittaessa. Tällä kertaa mallin kannalta haastavat kohteet keskittyvät paikkoihin kuten Päijät-Hämeen 16600 Kärkölä, 88900 Kuhmo, 91500 Muhos ja Kemin itäpuolen 94700 Takajärvi-Haukkari.

Mallin ja toteutuneen neliöhinnan vertailu paljastaa milloin tekoäly erehtyy - mutta myös milloin kauppahinta on tarkoituksella väärin asetettu
Kuva 1. Asuntojen neliöhintamallin ennuste verrattuna toteutuneeseen myyntihintaan Suomessa. Ympyrät A, B ja C kuvaavat kolmea ryhmää datapisteitä, joiden eroja ennusteen ja toteutuneen kauppahinnan välillä tarkastellaan blogissa tarkemmin.

Toisaalta pienten paikkakuntien isot asunnot ovat haastavia hinnoitella ihmisillekin. Usein käy vielä niin, että kohteen tunnepohjainen arvo myyjälle ei kohtaa karun todellisuuden ostajan maksuvalmiuden kanssa. Tämän vuoksi tulee väkisin vastaan raja siinä, mitä tekoäly kykenee käytettävissä olevan datan rajoissa oppimaan kyseisten kohteiden hinnoittelusta.

Hanko hämmästyttää

Tarkastellaan seuraavaksi toista joukkoa, jossa malli ja todellisuus poikkeavat toisistaan radikaalisti. Vaikka kuvan 1 joukko B onkin hyvin pieni, se erottuu todella selvästi. Kyseessä on neljä kohdetta Hangossa, joista on tehty kauppaa yli 8000 euron neliöhinnalla. Hangon normaali hintataso on keskimäärin alle 1400 euroa/neliö (kts. kuva 2), joten hintataso on ollut todellakin poikkeava, eikä ihme, että malli ei ole pysynyt perässä. Hintatasolle ei löydy suoraan mitään selitystä. Kyseessä ei voi olla poikkeuksellinen tontti, oma saari tai vastaava, sillä kaikki asunnot on myyty kerrostaloissa. Talot ovat 2010-luvulla rakennettuja muta ei kuitenkaan edes uudiskohteita.

Kuva 2: Toteutuneiden neliöhintojen jakauma Hangossa. Normaalin 1000 euron molemmin puolin pyörivän hintatason lisäksi aineistosta löytyy myös todella korkealla yli 8000 euron neliöhinnalla tehtyjä kauppoja.

Miksi siis kyseiset kohteet olisi myyty reippaaseen ylihintaan? Onko mahdollista, että Hangossa on kiinteistövälittäjiä, joiden näppäimistö jumittuu poikkeuksellisen helposti tietoja syötettäessä, minkä seurauksena hinnat ovat kirjautuneet kymmenkertaisina? Periaatteessa 800-900 euron neliöhinta voisi olla mahdollinen Hangon hintatasolla. Toisaalta miksi kaikkialla muualla Suomessa osattaisiin hinnat syöttää oikein ja vain Hangossa hutiloitaisiin? Vaihtoehtoinen selitys lienee, että kaupat on tarkoituksella tehty kymmenkertaiseen hintaan, jolloin valitettavasti ainoa looginen selitys asialle taitaa olla rahanpesu… Ainakin vahva epäilys asiasta herää.

Mallin kannalta on kuitenkin selvää, että Hangon hintatasosta ei ole juuri uutta oppia ammennettavissa, joten siirrytään tarkastelemaan kolmatta poikkeavien datapisteiden ryhmää.

Harmaan talouden epäilyjä

Tarkastellaan lopuksi kuvan 1 joukkoa C, eli kohteita, jotka on myyty huomattavasti mallin ennustetta matalammalla hinnalla. Tämä joukko on harmaan talouden torjunnan kannalta kiinnostava, sillä periaatteessa kyse voi olla lahjanluonteisista kaupoista. Asuntokauppojen 2-4% varainsiirtoveron välttämiseksi voi olla houkutus hinnoitella kohde mahdollisimman edulliseksi, jos kauppakumppanin kanssa on olemassa esimerkiksi sukulaissuhde. Alihintainen kauppa voidaan kuitenkin tulkita lahjaksi – verottajahan katsoo, että omaisuudesta tulisi maksaa vähintään 75% käyvästä arvosta, jotta kauppaa ei tulkittaisi lahjaksi ja se johtaisi lahjaveron perimiseen[i].

Kannattaa huomata, että kaikki pisteet C eivät suinkaan ole veronkiertoa. Voi olla myös muita syitä, miksi tekoäly erehtyy yliarvioimaan jonkin kohteen arvoa – esimerkiksi isot taloyhtiön lainaosuudet eivät näy käytettävissä olevassa datassa, mutta vaikuttavat toki asunnon todelliseen arvoon. Tarkempi tarkastelu kuitenkin osoittaa, että suurin osa kyseisestä pilvestä todennäköisesti selittyy juuri verotussyin.

Tarkastellaan seuraavassa alle 2000 euron neliöhinnalla tehtyjä kauppoja, joille tekoälyn antama ennuste myyntihinnalle on yli 2000 euroa toteutunutta myyntihintaa korkeampi. Aineistosta löytyy 48 kauppaa, jotka on tehty keskihinnalla 591 euroa/neliö. Vertailun vuoksi, kyseisiltä postinumeroalueilta on aineistossa 252 muuta vuoden aikana tehtyä kauppaa, ja näissä keskihinta on ollut yli 2 200 euroa/neliö. Vaikka jätettäisiin pois neljä kohdetta, jotka ovat olleet poikkeuksellisen suuria alueella normaalisti myytäviin nähden ja jotka siis mahdollisesti ovat mallille vaikeasti hinnoiteltavia, edelleen noin 44 kohteen osalta herää epäilys kauppahinnan alihintaisuudesta.

Isosta veronkierrosta ei ole kyse – verokarhulta saamatta jäänyt varainsiitovero on näistä kaikista yhteensä luokkaa 90 000 €, kun varainsiirtoverojen arvioitu kertymä vuonna 2020 Suomessa on luokkaa 875 miljoonaa euroa[ii]. Toisaalta täytyy muistaa, että käytettävissä oleva datalähde sallii asuntojen myyjien ja ostajien kieltävän kaupan tietojen julkaisemisen, mikä lienee sitä todennäköisempää mitä epärehellisemmillä aikeilla osapuolet ovat liikkeellä. Eli avoimemmalla datalla olisi todennäköisesti mahdollista löytää huomattavasti enemmän alihintaisia kauppoja ja sitä kautta tukkia veronkiertoa.

Rovaniemen rehelliset veronkiertäjät?

Mielenkiintoiseksi joukon C tekee kuitenkin se, että yli kolmasosa kaupoista on tehty Rovaniemen postinumeroalueella 96100. Alueen normaali hintataso on hieman yli 2000 euroa/neliö 21 keskimäärin 51 neliön asuntokaupan aineistolla, mutta aineistosta löytyy kuitenkin 16 kauppaa keskimäärin 46 neliön asunnoista 336 euron neliöhintaan. Kyse ei ole yksittäisen kerrostalon kaupasta vaan kauppoja on ainakin kolmessa eri kiinteistössä. Onko Rovaniemellä siis Suomen rehellisimmät veronkiertäjät, jotka antavat avoimesti tilastoida toimiaan?

Mallin kannalta voidaan kuitenkin todeta, että vaikka C-ryhmän datapisteet muodostavat selkeän pilven, kyseisten pisteiden poikkeavuus alueen normaalista hintatasosta viittaa pikemminkin verojärjestelyihin kuin minkään oleellisen muuttujan puuttumiseen mallista. Ainoastaan yksi ryhmän pisteistä antaa lisäapuja mallinnukseen – Tampereen Kaukajärvellä tuskin sijaitsee 63-kerroksista kerrostaloa, vaan datan joukkoon on eksynyt 63-neliöisen asunnon kohdalle näppäilyvirhe, jota datan esitarkastelu ei ollut aiemmin paljastanut.

Yhteenveto

Poikkeavien datapisteiden analyysi vahvisti jo aiemmin tiedetyn haasteen pienten paikkakuntien suurien asuntojen hinnoittelussa. Tämän lisäksi analyysi tuotti pääasiassa vain rahanpesu- ja veronkiertoepäilyjä. Vaikka datasta löytyikin yksittäinen selkeä virhe, analyysi kuitenkin vahvisti osaltaan näkemystä, että mitään systemaattisia virheitä ei mallissa tunnu olevan. Huomattavan korkean neliöhinnan asuntoihin ei tällä kertaa paneuduttu, näitä kun käsiteltiin jo laajasti Helsingin asuntomarkkinoita koskevassa blogisarjan osassa.


[i] www.vero.fi

[ii] budjetti.vm.fi