Modeling of apartment prices in a Colombian context from a machine learning approach with stable-important attributes
Autor: | Juan Carlos Correa Morales, Favián González Echavarría, Jorge Iván Pérez Rave |
---|---|
Rok vydání: | 2020 |
Předmět: |
Computer science
real estate Context (language use) Real estate Sample (statistics) 02 engineering and technology bienes raíces Machine learning computer.software_genre datos masivos aprendizaje de máquinas big data 0502 economics and business Linear regression 0202 electrical engineering electronic engineering information engineering precios inmobiliarios 050207 economics business.industry 05 social sciences General Engineering Object (computer science) Regression Random forest machine learning Scale (social sciences) 020201 artificial intelligence & image processing Artificial intelligence property prices business computer |
Zdroj: | DYNA, Volume: 87, Issue: 212, Pages: 63-72, Published: MAR 2020 |
ISSN: | 2346-2183 0012-7353 |
DOI: | 10.15446/dyna.v87n212.80202 |
Popis: | The objective of this work is to develop a machine learning model for online pricing of apartments in a Colombian context. This article addresses three aspects: i) it compares the predictive capacity of linear regression, regression trees, random forest and bagging; ii) it studies the effect of a group of text attributes on the predictive capability of the models; and iii) it identifies the more stable-important attributes and interprets them from an inferential perspective to better understand the object of study. The sample consists of 15,177 observations of real estate. The methods of assembly (random forest and bagging) show predictive superiority with respect to others. The attributes derived from the text had a significant relationship with the property price (on a log scale). However, their contribution to the predictive capacity was almost nil, since four different attributes achieved highly accurate predictions and remained stable when the sample change. Resumen El objetivo es desarrollar un modelo de aprendizaje automático para precios de apartamentos en un contexto colombiano. Este artículo aborda tres aspectos: i) compara la capacidad predictiva de regresión lineal, árboles de regresión, random forest y bagging; ii) identifica los atributos estables-importantes y los interpreta desde una perspectiva inferencial para entender mejor el objeto de estudio. La muestra consta de 15.177 observaciones de inmuebles. Los métodos de ensamblaje (random forest y bagging) muestran una superioridad predictiva con respecto a los demás. Los atributos derivados del texto muestran una relación significativa con el precio de la propiedad (en escala logarítmica). Sin embargo, su contribución a la capacidad predictiva fue casi nula, ya que cuatro atributos diferentes lograron predicciones altamente precisas y se mantuvieron estables ante cambios en la muestra. |
Databáze: | OpenAIRE |
Externí odkaz: |