Kuten edellisessä blogissa kirjoitin, on tullut aika päivittää asuntojen toteutuneita myyntihintoja selittävä malli uusimmalla datalla Suomessa myydyistä asunnoista. Samalla saamme hyvän näkymän siihen, millaisia asuntoja Suomessa myydään ja missä kauppa tällä hetkellä käy vilkkaimpana.
Toisen sukupolven datan vertailu ensimmäiseen sukupolveen
Ennen kuin tarkastellaan varsinaista dataa, käytetään hetki sen vertailemiseen, kuinka paljon data on muuttunut kolmen kuukauden aikana. Tämä auttaa toisaalta välttämään karkeita virheitä tietojen keruuvaiheessa – esim. tilastointitavan muutokset voisivat aiheuttaa ison osan datapisteistä joutumisen hukkaan. Ja toisaalta kertoo myös siitä, millaisia ovat muutokset keskeisiin tunnuslukuihin kun noin neljännes aineistosta vaihtuu.
Kuten blogisarjan ensimmäisessä osassa kirjoitin, asuntojen myyntidataa voidaan hakea kahdella eri tavalla, joko kuntatasolla tai tarkemmin postinumerotasolla. Vasta päivitetyssä postinumerotason datassa on 6,9% vähemmän datapisteitä kuin kuntatasolla haetussa datassa. Vastaava suhde 1. sukupolven datassa oli 7,5%, joten toisen sukupolven data on edelleen edustava otos koko datasta. Toki samat aiemmin kuvatut rajoitukset kauppojen raportoinnista ovat edelleen voimassa.
Tarkasteltaessa seuraavaksi aineiston ääripäitä havaitaan, että yhtä neljästä poikkeavan datapisteen määrittelevästä säännöstä joutuu muuttamaan. Asunnon maksimikoko, maksimihinta ja maksimineliöhintasääntö eivät muutu, mutta aineistoon on tullut vielä aiempaakin pienempi kohde – kun aiempi alaraja oli 14 neliötä, päivitetyssä datassa löytyy yksi 13,7 neliön mikroasunto. Päivitetyillä säännöillä selkeitä muista poikkeavia datapisteitä on postinumerodatassa 160 kpl (0,6%) vs ensimmäisen sukupolven 157 kpl (0,7%).
Postinumerotason datassa on nyt 24848 datapistettä vs. 1. sukupolven 23653, eli 5% enemmän. Tästä ei voi kuitenkaan päätellä, että asuntokauppa olisi välttämättä vilkastunut, vaan ainoastaan, että kyseiseen tietokantaan kirjattujen kauppojen määrä on hieman aiempaa suurempi.
Puutteellisten datapisteiden käsittely uudistuu
Yksi tavoitteista toisen sukupolven mallille on parantaa puutteellisten datapisteiden käsittelyä. Esimerkiksi asunnon kunto ja energialuokka ovat tietoja, joista ainakin jompi kumpi puuttui aiemmin lähes joka toisesta datapisteestä. Ensimmäisen sukupolven malli käsitteli vain datapisteitä, joista löytyivät kaikki tiedot; toisen sukupolven mallissa hurja hinnoittelija päätyi käyttämään muuttujia, jotka havaitsevat esimerkiksi energialuokan puuttumisen ja hakemaan näille muuttujille vaikutuksen toteutuneeseen neliöhintaan. Eli oletettavasti kauppa ei jää tekemättä puuttuvan energiatodistuksen vuoksi, mutta sillä saattaa olla neliöhintaa laskeva vaikutus ostajan jäädessä epätietoiseksi asunnon energiataloudellisuudesta.
Parannetulla käsittelyllä energialuokassa ja muissa muuttujissa puutteellisten tietojen vuoksi jää pois enää n. 10% datapisteistä aiemman lähes puolen sijaan.
Millaisia asuntoja Suomessa myydään?
Sitten itse datan tunnuslukuihin. Kun tarkastellaan muutaman keskeisen tunnusluvun keskiarvoja (taulukko 1), nämä ovat kahden desimaalin tarkkuudella samoja vaikka välissä datasta on vaihtunut noin yksi neljäsosa. Isoja muutoksia myytyjen asuntojen tyypissä ei ole havaittavissa.
Keskiarvot | 1. sukupolven data 12/2018-11/2019 | 2. sukupolven data 3/2019-2/2020 |
Huonelukumäärä | 2,7 | 2,7 |
Kerros | 2,2 | 2,2 |
Talossa kerroksia | 3,4 | 3,4 |
Neliöhinta | 2 672 | 2 695 |
Neliöt | 77 | 77 |
Velaton hinta | 187 000 | 188 000 |
Rakennuksen ikä | 36,6 | 36,1 |
Hissitalojen osuus | 35,4 % | 35,3 % |
Kerrostalojen osuus | 58,5 % | 58,4 % |
Rivitalojen osuus | 22,3 % | 22,3 % |
Omakotitalojen osuus | 19,2 % | 19,2 % |
Taulukko 1: Asuntojen myyntidatan tunnuslukujen vertailua – kuinka paljon data on muuttunut viimeisen kolmen kuukauden aikana kun yksi neljäsosa datasta on päivittynyt?
Kuinka suuri on asuntomarkkina Suomessa?
Kiinteistövälittäjien keskusliitto raportoi 2019 myydyn kaikkiaan 62 318 vanhaa asuntoa ja 10 571 uudiskohdetta, ja arvioi näiden tilastojen kattavan noin 80 % käytettyjen asuntojen kaupasta ja alle 50 % uudiskohteista.[i] Tämä indikoi markkinan kokonaiskoon olevan noin 100 000 asuntokauppaa vuodessa koko Suomessa eli hieman alle neljä kauppaa sataa kotitaloutta kohden.
Missä kauppa käy?
Seuraavassa tarkastelussa rajoitutaan postinumeroalueisiin, joissa on tehty kaikissa huoneistotyypeissä (yksiö, kaksio, kolmio, isommat) vähintään 3 kauppaa – eli minimissään vähintään 12 kauppaa vuoden aikana. Tällaista avointa dataa löytyy 261 postinumeroalueelta, joilla asuu n. 45% Suomen kotitalouksista. Näillä postinumeroalueilla aineistossa on keskimäärin 1,3 kauppaa per sata kotitaloutta. Ero on sen verran iso koko Suomen lukuihin, että se ei selity pelkästään yksityisten tekemien kauppojen puuttumisella aineistosta, vaikka nämä painottuisivatkin aktiivisen kaupankäynnin alueille, joissa on muutenkin kauppoja. Tämä viittaisi siihen, että tilastointi on puutteellinen tai tilaston data on sen verran huonolaatuista, että merkittävä osa siitä jää nousematta avoimeen dataan. Tämä on potentiaalinen ongelma, jos avoimeen dataan nousevassa otoksessa on systemaattinen vinoutuma. Jos taas kyse on satunnaisista virheistä, otos on edelleen niin suuri, että johtopäätökset ovat varsin luotettavia.
Kuvassa 1 on esitetty aineistossa olevien asuntokauppojen määrä suhteutettuna postinumeroalueen talouksien määrään aktiivisen kaupankäynnin alueilla – siis alueilla, joissa on kaikissa huoneistotyypeissä vähintään kolme kauppaa vuoden aikaikkunassa. On tärkeä huomata, että lopuillakaan alueilla kauppa ei ole pysähtynyt täysin. Lohenpunaisella on esitetty alueet, joissa on datapisteitä ainakin osasta huoneistotyypeistä. Niiden osalta ei voi tehdä johtopäätöksiä kaupankäynnin vilkkaudesta alueella – voihan olla, että alueella yksinkertaisesti ei ole esimerkiksi yksiöitä, joista käydä kauppaa, mutta kaupankäynti on aktiivista kaikissa alueella löytyvissä huoneistotyypeissä. Tummanharmaista alueista voi päätellä, että niille on aineistoon kirjautunut korkeintaan kahdeksan kauppaa per alue (siis korkeintaan kaksi per huoneistotyyppi).
Asuntojen kaupankäynnin aktiivisuus pääkaupunkiseudulla
Kuvassa 2 pureudutaan asuntokauppojen määrään per alueen talous pääkaupunkiseudulla. Erityisesti Katajanokka erottuu aktiivisen kaupankäynnin alueena. Kuten Suomen tapauksessa, lohenpunaisten alueiden osalta ei voi tehdä päätelmiä kaupankäynnin aktiivisuudesta
Datan päivittäminen on ensimmäinen vaihe matkalla kohti toista mallisukupolvea. Datapisteiden lukumäärien, ääriarvojen ja keskiarvojen tarkastelu tässä artikkelissa osoitti, että itse data ei ole muuttunut kovin radikaalisti kolmen kuukauden takaisesta. Tämän vuoksi onkin erityisen kiinnostavaa nähdä, muuttaako uudistettu muuttujavalinta mallia ja sen antamia tuloksia radikaalisti, vai ovatko ennusteet linjassa aiempien tulosten kanssa. Eli toisin sanoen, kuinka herkkiä johtopäätökset ovat menetelmille jota mallia muodostettaessa käytetään, vaikka itse data ei olisi juurikaan muuttunut aiemmasta?
[i] https://kvkl.fi/vanhojen-asuntojen-kauppa-loikkasi-vuonna-2019-joulun-alla-vauhti-vain-kiihtyi/