Asunnon toteutuneeseen myyntihintaan vaikuttaa paitsi asunto itsessään myös alue, jolla se sijaitsee. Blogisarjan edellisessä osassa käsiteltiin postinumeroalueita kuvaavan aineiston muokkaamista ja muuttujavalintaan liittyviä kysymyksiä. Nyt päästään katsomaan ensimmäisiä tuloksia alueiden arvostuksesta – ensin koko Suomen tasolla ja sitten pureutuen pääkaupunkiseutuun. Mikä on alueen merkitys asunnon myyntihinnassa? Löytääkö tekoäly alueita, joilla hinta-laatusuhde on erityisen houkutteleva?
Kuvassa 1 on tarkasteltu mallin antamien neliöhintaennusteiden ja todellisten myyntihintojen keskiarvoja per postinumeroalue. Pääsääntöisesti mallin ennuste ja toteutunut neliöhinta asettuvat hyvin kuvaa halkaisevalle kuvitteelliselle viivalle, jolla mallin ennuste vastaa toteutunutta neliöhintaa. Voidaan siis todeta, että keskimäärin ja suurimmassa osassa tapauksista mallin antama ennuste vastaa toteutunutta neliöhintaa eli malli kykenee pääsääntöisesti hyvin kuvaamaan toteutuneita asuntojen myyntihintoja.
Mallin ennuste ja toteutuneet myyntihinnat – mikä eroaa?
Muutama asia kuvassa 1 kiinnittää huomioita. Ensinnäkin, kuten keskihintoja käsittelevässä blogissa hurja hinnoittelija havaitsi, löytyy alueita ja kohteita joille malli antaa negatiivisen neliöhintaennusteen vaikka toteutunut neliöhinta on ollut 136-904 €. Nämä näkyvät kuvassa 1 alareunassa, jossa vaaka-akselilla toteutunut myyntihinta on positiivinen, vaikka pystyakselilla mallin ennuste on hyvin lähellä nollaa. Ilmiön syitä pohdittiin jo aiemmassa blogissa, joten ei palata asiaan tässä sen enempää.
Toinen huomioita herättävä kohta ovat yksittäiset datapisteet, jotka näyttävät nousevan muun joukon yläpuolelle. Nämä ovat alueita, joiden kohteita malli pitää arvokkaampina kuin millä hinnalla kauppoja alueella on tosiasiassa tehty. Periaatteessa nämä siis voisivat olla aliarvostettuja alueita – tai vaihtoehtoisesti kertovat vain siitä, että mallista puuttuu muuttujia, jotka korjaisivat mallin ennustetta kyseisten alueiden osalta toteutuneiden hintojen mukaiseksi. Tarkastelen yhtä esimerkkiä tällaisesta alueesta tämän artikkelin lopussa, mutta ensin vielä yksi nosto kuvasta 1.
Kolmas huomiota herättävä kohde on oikeassa yläkulmassa, jossa pistejoukko tuntuisi hiukan kaartuvan kuvion kuvitteelliselta halkaisijalta oikealle. Eli tuosta kulmasta löytyy alueita, joissa malli antaa matalamman ennusteen keskineliöhinnalle kuin mitä todellisuudessa havaitaan. Tämä näkyy vielä selkeämmin kun katsotaan ennusteen eri kvartiileja taulukossa 1 toisaalta yksittäisten datapisteiden ja toisaalta alueiden tasolla. Kolmannen (75%) kvartiilin kohdalla malli ja data ovat vielä varsin hyvin linjassa, mutta lähestyttäessä maksimiarvoja malli ei kykene täysin selittämään hintatason nousua.
€/m2 | Toteutunut neliöhinta, yksittäiset kohteet | Mallin ennuste, yksittäiset kohteet | Toteutunut neliöhinta, postinumerotaso | Mallin ennuste, postinumerotaso |
Keskiarvo | 2865 | 2865 | 2216 | 2209 |
Keskihajonta | 1754 | 1669 | 1324 | 1368 |
Minimi | 11 | -688 | 171 | -189 |
25% kvartiili | 1604 | 1645 | 1326 | 1340 |
50% kvartiili | 2446 | 2526 | 1919 | 1919 |
75% kvartiili | 3664 | 3963 | 2690 | 2796 |
Maksimi | 15000 | 9832 | 8880 | 8098 |
Taulukko 1: Mallin ennusteen ja toteutuneiden kauppojen tunnuslukujen vertailu toisaalta yksittäisten kohteiden ja toisaalta postinumeroaluetasolla.
Kallein postinumeroalue Suomessa
Kalleimmalla postinumeroalueella (joka on 00130, Helsingin Kaartinkaupunki) malli ennustaa keskimäärin noin 9% matalampaa neliöhintaa kuin kaupoissa on toteutunut. Eron käytännössä kuitenkin selittää kaksi tekijää.
Ensinnäkin, Kaartinkaupungin alueella on myyty itse asiassa hyvin vähän asuntoja – datassa on vain 16 kauppaa koko alueella ja näistäkin vain yhdeksässä on mukana täydelliset tiedot mallin kannalta, loput 7 on jätetty huomiomatta mallia muodostettaessa. Dataa tutkittaessa kuitenkin paljastuu, että jos myös puutteelliset datapisteet huomioitaisiin, niin Kaartinkaupungin toteutunut keskihinta olisikin vain 8544 €/m2 – tämä yksinään selittää puolet mallin ja datan erosta. Samalla hurja hinnoittelija oppii, että puutteellisten datapisteiden hyödyntämiseen kannattaa myös hakea ratkaisuja – asia, joka tulee korjautumaan seuraavassa jo työn alla olevassa mallisukupolvessa.
Toiseksi, Katajanokan 1940-luvun mysteeristä opimme, yksittäiset uudiskohteet voivat sekoittaa tuloksia. Itse asiassa postinumeroalueen 00130 aineistossa on mukana kaksi yli 10 000 €/m2 hinnalla myytyä kohdetta, joiden kaupunginosaksi on vieläpä kirjattu Katajanokka. Herää kysymys, onko taustalla vain inhimillinen virhe, jossa postinumeroalueella 00160 Katajanokka tehty kauppa on erehdyksessä kirjattu postinumeroalueelle 00130? Ja kun kyseiset kohteet ovat vielä 1940-luvulla rakennetussa talossa, Katajanokan mysteeri saattaa kummitella tässäkin taustalla. Jos kyseiset kaksi kohdetta jättää pois, Kaartikaupungin todellinen keskihinta onkin puutteelliset datapisteet huomioiden enää 8 109 €/m2 – eli vastaa mallin ennustetta 99,9% tarkkuudella. (Näin hyvä tarkkuus on sattumaa, vaikka kuulostaakin vakuuttavalta.)
Tämä tarkoittaa, että malli itse asiassa suoriutuu hyvin myös Kaartinkaupungin hintatason selittämisestä, kunhan sille syötetään oikeaa dataa. Ja päinvastoin, pelkästään tilastoja katsomalla hintatason voi kuvitella olevan lähes 10% todellista korkeampi. Tämä voi johtaa pitkittyneisiin myyntiaikoihin ja pettymykseen toteutuneessa hinnassa, vaikka lopulta kohteesta saataisiinkin täysin markkinahinnan mukainen myyntihinta.
Suomen kallein asunto?
Vertailemalla taulukon 1 kahta vasemmanpuolimmaista lukusaraketta havaitsee, että yksittäisen asunnon osalta mallin ennuste on korkeimmillaankin alle 10 000 €/m2, kun taas täydellisten datapisteiden joukosta löytyy jopa 15 000 €/m2 hinnalla tehtyjä kauppoja. Toisaalta yli 12 000 €/m2 kauppoja, joista on täydelliset tiedot aineistossa, on vain 4 kpl ja yli 10 000 €/m2 kauppoja vain 44 – olisi kohtuutonta vaatia, että koko Suomen asuntojen hinnoittelua kuvaamaan pyrkivä malli suoriutuisi kolmen promillen erikoistapausten mallintamisesta. Esimerkiksi tuo 15 000 €/m2 kohde on 14-neliöinen tehoyksiö, joka on kooltaan lähes täysin uniikki jopa Helsingin mittapuulla.
Kaksi muuta poikkeuksellisen korkeita neliöhintoja selittävää tekijää tulee myös mieleen – ensinnäkin ullakkoasuntojen hinnoittelua varten mallilla ei yksinkertaisesti ole riittävästi tietoja. Näissähän todellinen hyödyllinen pinta-ala ja asuinpinta-ala voivat poiketa merkittävästikin, mutta käytettävissä olevassa datassa ei ole tietoa edes siitä, onko kohde ullakkoasunto vai ei. Ylimmän kerroksen vaikutuksen myyntihintaan malli kykenee arvioimaan, mutta kaikki ylimmän kerroksen kohteet eivät ole ullakkoasuntoja.
Toiseksikin, poikkeuksellinen näköala saattaa hyvinkin selittää tiettyjen kohteiden viehätystä. Yli 10 000 €/m2 kohteista puolet sijaitsee Helsingin Katajanokalla ja lopuissa ovat alueina vahvasti edustettuina mereen rajautuvat Eira, Kaivopuisto, Ulllanlinna ja Kruunuhaka. Kaipa joku kuvailisi myös Punavuorta ja Kamppia ”merelliseksi”, löytyyhän niistäkin näkymiä ainakin Hietalahteen. Yksittäinen merenpuolinen asunto saattaa näillä alueilla olla merkittävästi arvokkaampi kuin korttelin toisella puolella sijaitseva muuten samanlainen asunto, mutta tässä törmätään käytettävissä olevan datan rajoituksiin.
Alueen merkitys asunnon myyntihinnassa pääkaupunkiseudulla
Ensiksikin varoitus: hurjan hinnoittelijan malli on vasta ensimmäisen sukupolven versio ja matkan varrella on ilmiön mallintamisesta tullut opittua paljon. Seuraava sukupolvi on jo työn alla ja on varmasti ensimmäistä luotettavampi. Se tulee myös tarkentamaan ymmärrystä siitä, mitkä alueiden eroja selittävät tekijät ovat pysyviä ja mitkä vain sattuvat kuvaamaan hyvin eroja vuoden 2019 myyntitilastoissa. Mallinnuksen haaste on se, että myös täysin satunnaiset tekijät voivat selittää dataa hyvinkin vakuuttavasti ainakin yhden kerran – ratkaisevaa on, pystyvätkö samat muuttujat selittämään ilmiötä myös yli ajan.
Menetelmän käytännön hyötyjen kannalta on kuitenkin kiinnostavaa, voidaanko tekoälypohjaisella mallinnuksella päästä käsiksi myös alueiden eroja selittäviin tekijöihin. Keskustan puheenjohtaja Katri Kulmuni nosti vastikään huolen suomalaisen asuntovarallisuuden kehityksen trendeistä ja viittasi paitsi harvaan asuttujen alueiden tilanteeseen, myös Pohjois-Helsingin hintakehitykseen[i]. Mutta mikä osa keskihintakehityksestä on todellista ja mikä osa selittyy muilla tekijöillä, esimerkiksi myytyjen asuntojen koon vaihtelulla, jolla on suuri vaikutus näennäiseen keskihintaa kuten aiemmin havaittiin?
Tämän tutkimiseksi Hurja hinnoittelija piirsi pääkaupunkiseudun kartalle[ii] paitsi toteutuneet keskihinnat (kuva 2) myös mallin ennusteen (kuva 3). Näiden vertailu (kuva 4) paljastaa kiinnostavia seikkoja. Harmaat alueet kussakin kuvassa ovat alueita, joilta ei ole riittävästi laadukasta dataa johon verrata.
Alueet joiden arvoa malli ei kykene täysin selittämään
Kuvan 3 tummat alueet ovat alueita, joiden hintatasoa malli ei käytettävissä olevilla muuttujilla kykene täysin selittämään. Tällainen on esimerkiksi Kaartinkaupunki, johon löysimmekin aiemmin järkevän selityksen.
Pureutumalla muihin tummiin alueisiin vastaavasti saattaisimme hyvinkin löytää myös vastaavia selityksiä mallin ja toteutuneen neliöhinnan eroille. On kuitenkin hyvä huomata, että selitykseksi ei käy, että pientaloalueilla todellinen neliömäärä voi olla huomattavasti asuinpinta-alaa isompi, sillä malli huomioi myös rakennustyypin ja arvioi rivi- ja omakotitaloissa olevan keskimäärin hyödyllistä rakennuspinta-alaa ilmoitetun asuinpinta-alan lisäksi. Alueen rakennuskannan pitäisi olla täysin poikkeuksellinen muun Suomen rivi- ja omakotitaloista, jotta muu pinta-ala kävisi selitykseksi.
On hyvä ymmärtää, että vaikka malli ei kykene selittämään alueiden hintatasoa, tämä ei tarkoita, että alueet olisivat yliarvostettuja. Kyse on toteutuneista kaupoista, joten jokin ostajasegmentti on ollut valmis maksamaan kyseisillä alueilla asunnoista pyydetyn hinnan. Malli ei vaan (vielä) tunnista ostopäätökseen vaikuttanutta tekijää.
Vastaavasti vihreät ja etenkin keltaiset alueet ovat *mallin mielestä* aliarvostettuja. Eli malli ennustaa niille korkeampia myyntihintoja kuin mitä todellisuudessa havaitaan, senkin jälkeen kuin kaikki muut selittävät tekijät on huomioitu.
Toisaalta tällöinkin taustalla saattaa olla myös tekijöitä, joita malli ei osaa huomioida – esimerkiksi tontin omistussuhde (oma vs. vuokrattu) on tulossa vasta seuraavan sukupolven mallissa. Tässä on todennäköisesti isoja aluekohtaisia eroja, joten sen huomiointi parantaa mallin ennustuskykyä.
Kuvasta 3 ehkä tärkein oivallus on se, että värit asettuvat kartalle hyvinkin satunnaisen näköisesti – ei voida sanoa, että jossain osassa pääkaupunkiseutua olisi systemaattisesti eroa suuntaan tai toiseen. Tämä tarkoittaa, että erot alueiden välillä voivat hyvinkin johtua satunnaisista tekijöistä systemaattisen ali- tai yliarvostuksen sijaan. Ainakaan näistä tuloksista ei ole havaittavissa erityistä Pohjois-Helsingin kriisiä.
Pääkaupunkiseudun aliarvostetuin alue?
Käytännön esimerkkinä voidaan tarkastella Itä-Helsingin vahvaa yksittäistä keltaista aluetta 00950 eli Vartioharjua. Alue jää metron kahden haaran väliin, joten voi spekuloida vaikuttaako julkisen liikenteen heikompi saatavuus alueen hintatasoon. Tästä on viitteitä tutkimuksista maailmalta[iii, iv] ja mallissammehan tarkastelimme vain autolla kuljettuja matkoja hintatason selittäjänä. Autolla etäisyys Vartioharjusta keskustaan on vastaava kuin naapurialueilta, julkisilla sen sijaan ei – 25 minuutin sijaan julkisilla saattaa kulua 35 minuuttia. Toisaalta aiemmin havaitsimme aikamme arvon olevan vain n. 4 €/m2/min, joten julkinen liikenne selittäisi vain pienen osan erosta, vaikka se malliin lisättäisiinkin. Kun Vartioharjussa myytyjen kohteiden määrä on vielä melko suuri (26 kpl), niin ihan yksittäisen kohteen erityispiirteillä ero ei selity. Ehkä Vartioharju onkin alue, jota kannattaa tarkemmin tutkia, tekoäly kun tuntuu ehdottavan, että hinta-laatusuhde on siellä nyt kohdallaan?
Yhteenvetona voi todeta, että asuinalueen merkitys asunnon myyntihinnassa on suuri. Tekoälyn avulla alueiden ominaispiirteisiin päästään käsiksi ja eri alueiden välisiä eroja kyetään selittämään hyvinkin tarkasti. Tämä mahdollistaa sen, että päästään keskihintatilastojen taakse ja kyetään ymmärtämään mikä osa keskihintojen vaihtelusta on aitoa hinnanmuutosta ja mikä taas selittyy eri ajanhetkinä myytyjen kohteiden eroilla (kunnolla, pinta-alalla jne.). Samalla on mahdollista tunnistaa alueita, joiden hinnoittelua tutkimalla mallia voi kehittää edelleen, sekä alueita, joissa hinta-laatusuhde vaikuttaisi tunnistettujen tekijöiden valossa houkuttelevalta.
[i] Ilta-Sanomat 8.2.2020: https://www.is.fi/politiikka/art-2000006400665.html
[ii] Kiitos HSY:lle erinomaisesta karttatiedostosta.
[iii] Brandt et al. (2012). The Impact of rail access on condominium prices in Hamburg. Transportation, 39, 997-1017.
[iv] Mulley (2014). Accessibility and Residential Land Value Uplift: Identifying Spatial Variations in the Accessibility Impacts of a Bus Transitway. Urban Studies, 51, 1707-1724.