時間:2022-03-05 04:47:38
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了一篇決策樹下房地產市場的數據挖掘范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
以某知名房地產企業某商品住宅項目2014~2015年的銷售成交記錄(801條)和訪問接待記錄(865條)為樣本,通過剔除“實質貧數據”的客戶人口統計信息改進數據集,同時通過對已成交購房者按“消費狀態”(即“剛需”“首改”“再改”和“升級”)進行決策樹分類,得到“利益相關者”和“以投資為導向”兩個穩定的關鍵變量。以此指導對訪談數據集的分類,發現購房者在與銷售人員接觸時,首先關注的是房源的面積大小,而非如價格、戶型等其他信息,在兼顧精度的同時,發現可以直接指導人工銷售的知識規則。
一、引言
近年來,我國住房消費市場不斷發育成熟,房地產行業也逐漸積累了大量的客戶信息數據。這些房地產交易數據與客戶數據,與宏觀經濟數據、房地產供給數據以及交易后服務數據一道構成了房地產市場的數據體系。這些數據對房地產企業經營的各個環節,尤其是后端銷售環節具有重要意義(李海洋,2017)。但由于房地產交易不同于簡單的網上購物,消費者必須借助專業銷售人員的幫助才能完成交易,而消費者與銷售人員之間的信息不對稱,許多“大數據”在交易完成前都無法獲得,因此針對歷史數據的預測方法就無法使用。如何從這種名義上是大數據,實質上卻是“貧數據”的房地產客戶數據中獲得有價值的信息,使數據真正可以應用與指導實踐就成了一個重要的問題。本文在現有研究和決策樹的成熟模型基礎上,試圖改善這兩個問題,讓機器學習不僅獲得數據分析結果同時也獲得知識,并可以將知識直接服務于人工房地產銷售業務。
二、基于決策樹的市場數據挖掘模型構建思路
決策樹是一種重要的預測型數據挖掘技術,這種算法主要通過貪婪算法遞歸實現分類與預測功能。其系列算法起源于Hunt、Marin和Stone在1966年提出的單概念學習系統。Quinlan(1987)提出的ID3算法正式建立了決策樹的算法框架。決策樹分類預測的實現流程大致如下:(1)在理解問題的基礎上,對數據進行清洗、賦值、標準化等預處理;(2)進一步使用具體決策樹分類方法,利用訓練樣本構建決策樹,并通過測試集樣本檢驗決策樹的效果;(3)根據結果調試相關參數與方法改進模型。決策樹在標準選擇、改進思路和效果評價上有著多種不同規則。目前在許多理論與應用研究上,對模型效果的評價主要聚焦于預測精度。通過設置代價系統、改變抽樣機制等方式,追求相關問題預測精度的最大化。但本文參考決策樹在多個領域的應用研究(Liang等,2015;Kretser等,2015;Dhurandhar等,2015)認為,除此之外,研究方向還應包括:分析樣本數據集與生成的數規則的關系、規則復雜度與預測準確性的折衷等方面。前一個問題是聯系決策樹算法與現實中具體應用的橋梁,而后一個問題則是將單純的分類算法提升到系統科學的角度進行多目標的決策體系構建。本文即從這兩個問題出發,首先從研究房地產銷售數據的特性,站在從房地產交易的具體情境上分析數據的可得性及穩定性,以建立適當的數據集。此外,鑒于房地產交易的復雜性,消費者必然會借助專業銷售人員的幫助完成交易,因此,房地產數據挖掘更應該對房地產銷售人員的服務過程形成協助。房地產銷售人員在服務過程中,對單個客戶的精準把握自然是一方面,但在同樣的時間里用盡可能少的交流,掌握切中購房需求的要害問題,對更多客戶形成基本正確的判斷,也是其拓展渠道提升業績的方式。因此本文希望通過數據挖掘,得到分類標準穩定并易于解釋的決策樹規則。
三、數據分析
(一)數據說明與預處理
本文采用的數據包含兩部分,均源自某綜合性知名房地產企業的數據庫,一部分是該企業在環渤海地區某城市一處住宅小區銷售中心2014年成立以來的商品房住宅銷售成交記錄共801條;另一部分為該銷售中心自成立以來的訪問接待記錄共865條。對這些一手數據做進一步清洗,在成交數據中剔除值缺失、明顯輸入錯誤記錄24條,剩余有效記錄777條;以同樣的標準剔除訪問接待記錄中的無效記錄43條,剩余有效記錄823條。成為本文用于挖掘的數據集。其中成交數據中包括50個字段,剔除沒有信息含量的“序號”“組別”“職業顧問”“樓號”等字段后。所謂數據穩定性強,是指這類數據反映的信息是客觀事實,一般不具有隨意性。如購房人的身份信息家庭信息無法根據消費者的意愿改變,但購房需求的細節如戶型、周邊配套設施等,屬于消費者的主觀意愿,本身沒有客觀事實與之對應,也就無穩定性可言。數據的隱瞞成本,是指消費者不披露該信息對于購房交易而言,是否影響交易的完成與完成質量。房地產的銷售人員相對于消費者始終處于信息不對稱的劣勢地位。消費者具有選擇是否披露自身相關信息的主動權。消費者在交易完成前,出于各種原因(家庭安全、隱私保護等)選擇不披露與房產交易無直接關聯的信息,就不會造成交易上的損失,因而隱瞞成本低。但如果一個消費者在與銷售人員交流時隱瞞其對于價格、戶型或周邊設施等消費需求,這樣的隱瞞將會對交易造成直接的影響?;谶@一分析,容易發現:盡管房屋成交后的數據集由于產權登記這一流程,擁有上表中所有字段的信息,但在房地產交易完成之前,銷售人員難以獲得與消費者本次購房無直接關聯的人口統計數據和其他消費習慣數據。因此,在數據集中應將兩個門類的數據剔除,只保留后兩個類型做進一步分析。在成交數據集中,各個字段均隱瞞成本較高,或如消費者信息來源這類信息由于導流渠道的確定性而無法隱瞞,因此均可以作為數據挖掘的數據集適用。
(二)實驗結果及分析
基于上述數據處理后,在SPSS16.0平臺上進行決策樹分析?;谇罢鹿澋恼撌?,本文以二項分枝,能生成較為簡明的樹規則CRT分類方法為主要方法,以CHAID為參考方法進行分析。針對所研究的問題,不同于類似銀行信用、航班延誤等預測,房地產的不同類型客戶各有其價值與風險,剛需消費者潛在價值可能偏低,但需求迫切成交的幾率也大,高端升級型消費者潛在價值更高,但需求更多元,完成交易的幾率較小。很難說哪類誤判有更大的代價。因此,本文的分析中不設置成本偏好的不對稱性。
1.對訪談客戶記錄的分析
通過觀察訪談數據集可以發現,這一數據集建立決策樹模型并分類的問題在于:缺少一個核心指標或組合規則將消費者加以區分,并以此為“類”對數據集進行分類,這與訪談數據沒有結構化的設計、信息獲得也比較零散有關。因此,本文首先對成交數據進行分析,試圖解決對客戶需求進行分類的“類”以何種規則確定的問題。
2.對成交記錄分析
通過對交易數據的觀察發現,消費者的住宅消費狀態這一信息具有優良特性:首先由于全國建立產權信息登記制度,消費者這一信息基本上屬于確定信息;其次,根據現行法規,處于不同住宅消費狀態的消費者在所適用的稅收、貸款等交易內容會有很大不同,在這一信息上選擇保留,將使自己在交易中蒙受損失。此外,房地產交易是大宗交易,客戶的消費次數不可以直接反映出其財富水平、交易經驗等相關信息,可以作為客戶細分的變量。因此本文擬對消費狀態(即剛需、首改、再改、升級)作為客戶細分的標準,進行決策樹分類。這一分類規則有一定的經濟含義,首先婚房與給父母買房,屬于有利益相關者,這一類需求往往迫切缺乏考慮的余地,因此往往是剛需用戶。而其他客戶中,又以“關注住宅質量”還是“單純為投資而購房”加以區分。已有一套住房的客戶,首次購買改善性住房時往往更注重房屋升值空間,愿意升值犧牲居住質量;而已有多次購房經歷的消費者,再次購房往往更關注生活質量;而已經購買過改善性住房,但其購買住房還沒有達到升級標準的再改客戶在分類中并不明顯,是因為其兼具了首改客戶與升級客戶的特征。此外通過觀察在CRT規則的右枝第二層可以發現,剛需客戶關注設施環境等問題的比例遠大于關注價格與升值空間,這一點與剛需客戶往往購房自住或給家人居住,同時該筆交易對其家庭財富影響巨大有關?;谝陨戏治隹芍?,利益相關人與投資導向是對房地產客戶細分的關鍵規則,其他的規則并不重要,這一點對房地產的銷售人員如何進行溝通有一定指導意義。
3.投資深度重分類與訪談記錄再驗證
以消費狀態對客戶細分的主要規則是,是否有利益相關者和是否以投資為導向?;谶@一認識,進一步對訪談數據集進行分析。兩種方法的相互驗證表明這樣一個觀點:無論是通過“利益相關人”還是“質量敏感”來分類,對客戶區分度最大的因素都是住房面積。這一點不難解釋:當客戶主動聯系具體銷售中心接受訪談時,可以斷定其對于自身經濟條件和諸如學區等關鍵因素均已形成判斷,而所聯系的樓盤,則恰好是其通過對自身信息判斷后找出的選項,這一點可以啟發銷售人員,在同客戶溝通時,首先根據上述判斷,溝通房源本身的戶型面積等問題,可以提高溝通效率。同時應注意,分枝的葉子集形式也有一定的信息含量,應注意到:傾向于購買大戶型住宅的客戶主要是“中間層”,“剛需”客戶與“升級”客戶則有購買小戶型的傾向。
四、結論與政策建議
由于房地產消費者與銷售人員間的信息不對稱,許多在交易完成前都無法獲得的“大數據”被用于數據挖掘和預測,造成“實質的貧數據”。本文通過對房地產銷售數據穩定性與隱瞞成本的判斷,剔除客戶人口統計信息,改進了數據集。同時通過對已成交購房者按“消費狀態”進行決策樹分類,得到“利益相關者”和“以投資為導向”兩個穩定的關鍵變量。以此指導對訪談數據集的分類,發現購房者在與銷售人員接觸時,首先關注的是房源的面積大小,而非如價格、戶型等其他信息。本文在兼顧預測精度的同時,發現了可以直接用于指導人工銷售業務的知識規則,房地產銷售人員可借助以上規則,提高溝通效率、改善銷售業績。根據以上結論,地方在制定住房政策時,也應充分利用數據挖掘的技術及其發現的知識:一方面,地方政府應與房地產企業建立更加系統的信息共享機制,建立認識住房需求的信息抓手,以便對已經存在的住宅交易進行市場調節;另一方面,地方政府可進一步善用擁有的戶籍等信息,加強對居民房產需求的理解,進而改善區域內房地產開發的事前規劃,使市場更加平穩有序地發展。