天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于集成學(xué)習(xí)的二手房產(chǎn)數(shù)據(jù)分類研究

發(fā)布時(shí)間:2021-04-18 13:05
  隨著我國經(jīng)濟(jì)的發(fā)展,房產(chǎn)在人們的生活中的地位越來越重要。經(jīng)過了十幾年房價(jià)的迅速增長,如今房地產(chǎn)市場的熱度雖然不比之前,但是仍然保持著很高的關(guān)注度,尤其是二手房市場成為了關(guān)注的焦點(diǎn)。本文通過集成學(xué)習(xí)方法對二手房產(chǎn)數(shù)據(jù)進(jìn)行了研究與分析,構(gòu)建出了準(zhǔn)確有效的二手房產(chǎn)優(yōu)質(zhì)房分類模型,為普通居民在購房時(shí)、房地產(chǎn)商開發(fā)房地產(chǎn)時(shí)以及二手房中介在推廣房源時(shí)都能提供科學(xué)的評估依據(jù)。本文先對二手房數(shù)據(jù)運(yùn)用多種方法進(jìn)行預(yù)處理,包括重復(fù)數(shù)據(jù)清洗、缺失值填充、數(shù)據(jù)標(biāo)準(zhǔn)化以及數(shù)據(jù)降維,使之能夠在數(shù)據(jù)分析中直接使用。然后,本文基于集成學(xué)習(xí),設(shè)計(jì)并構(gòu)建了三種二手房產(chǎn)優(yōu)質(zhì)房的分類模型。第一,從決策樹入手,從而構(gòu)建了決策樹集成的隨機(jī)森林模型;第二,通過AdaBoost方法,采用多層感知器神經(jīng)網(wǎng)絡(luò)構(gòu)建了神經(jīng)網(wǎng)絡(luò)集成模型;第三,采用最新提出的一種基于深度模型的深度森林算法,設(shè)計(jì)并改進(jìn)了深度森林的實(shí)現(xiàn)方法,構(gòu)建了基于深度森林的二手房產(chǎn)優(yōu)質(zhì)房模型。在構(gòu)建出三種二手房產(chǎn)優(yōu)質(zhì)房模型之后,本文通過對比實(shí)驗(yàn),對這三種模型進(jìn)行了分析與對比。最后,本文通過二手房產(chǎn)數(shù)據(jù)對三種模型分別做了優(yōu)質(zhì)房的分類實(shí)驗(yàn),并運(yùn)用多種評價(jià)指標(biāo),對分類結(jié)果作了分析。... 

【文章來源】:西南交通大學(xué)四川省 211工程院校 教育部直屬院校

【文章頁數(shù)】:70 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于集成學(xué)習(xí)的二手房產(chǎn)數(shù)據(jù)分類研究


部分原始房產(chǎn)數(shù)據(jù)

示意圖,滑動(dòng)窗口,示意圖,數(shù)據(jù)集


圖 3-2 滑動(dòng)窗口示意圖近鄰排序方法對數(shù)據(jù)進(jìn)行重復(fù)檢測,包含以下三步:構(gòu)建排序關(guān)鍵字:通過抽取數(shù)據(jù)集中某些屬性值來組合生成關(guān)鍵排序:按照步驟(1)生成的關(guān)鍵字把整個(gè)數(shù)據(jù)集進(jìn)行排序生成索合并:在已排序的數(shù)據(jù)集上,按照索引開始移動(dòng)設(shè)定的滑動(dòng)窗口 含個(gè) m 記錄,滑動(dòng)窗口內(nèi)每進(jìn)來一條數(shù)據(jù),則與之前滑動(dòng)窗口內(nèi)似性比對,如果檢測到重復(fù)數(shù)據(jù),就把該條數(shù)據(jù)進(jìn)行標(biāo)記。然后,把下一條記錄滑入窗口 W(i+1),繼續(xù)上述步驟,直到所有數(shù)據(jù)執(zhí)采用 Python3.5 對 SNM 方法進(jìn)行編碼重寫,利用 python 處理數(shù)據(jù)達(dá)到重復(fù)數(shù)據(jù)檢測的目的,同時(shí)也能節(jié)省時(shí)間成本。其中,對二手strictName”、“EstateName”、“Floor”、“Square”、“Price”這 5 列進(jìn)向量(其中的文本字符采用 Python 自帶庫的分詞工具類)。表 3-2 基本近鄰排序算法入:進(jìn)行排序去重的數(shù)據(jù)集 T出:去重合并后的數(shù)據(jù)集 T’

近鄰,滑動(dòng)窗口,排序算法,重復(fù)數(shù)


if(n<|W|):新進(jìn)入滑動(dòng)窗口的數(shù)據(jù)與第 n-1 個(gè)數(shù)據(jù)比較;if(該記錄為相似重復(fù)記錄):對相似重復(fù)的記錄標(biāo)記;執(zhí)行 n+1;向下滑動(dòng)窗口到 W(i);完成所有記錄的相似去重。本節(jié)選取第一個(gè)數(shù)據(jù)集的 6467 條二手房產(chǎn)數(shù)據(jù)進(jìn)行基本近鄰排序算法的實(shí)驗(yàn)結(jié)果展示,對滑動(dòng)窗口 W 的值設(shè)置為 100,將相似度比對的結(jié)果進(jìn)行存儲(chǔ),把相似重復(fù)數(shù)據(jù)標(biāo)為“1”。該 6413 條輸入的數(shù)據(jù)經(jīng)過基本近鄰排序算法,去除掉了 58 條,剩余6409 條。我們選取部分實(shí)驗(yàn)結(jié)果進(jìn)行展示,如圖 3-3 所示。在圖 3-3 中,我們可以清楚地看到,圖中的第 2 條和第 5 條數(shù)據(jù)(圖 3-3 中深色背景標(biāo)出的兩行)為比較明顯的重復(fù)數(shù)據(jù),只有兩列屬性稍有差距(圖 3-3 中黃色背景標(biāo)出的部分),在去重之后已經(jīng)將第 5 條數(shù)據(jù)標(biāo)記為“1”(圖 3-3 中紅色背景標(biāo)出的部分)。

【參考文獻(xiàn)】:
期刊論文
[1]基于SVAR模型的二手房與新房價(jià)格互動(dòng)關(guān)系再研究[J]. 湯玉,周文平,高明月,劉永升.  中國市場. 2017(26)
[2]大數(shù)據(jù)下基于房屋交易網(wǎng)站的數(shù)據(jù)獲取的二手房價(jià)格走勢分析——以上海為例[J]. 張漢中,張倩,董起航,周小平,王斌.  科學(xué)技術(shù)創(chuàng)新. 2017(21)
[3]重復(fù)特征“R-H”交易法——二手房價(jià)格指數(shù)編制方法研究[J]. 董倩.  統(tǒng)計(jì)研究. 2017(03)
[4]基于集成學(xué)習(xí)的標(biāo)題分類算法研究[J]. 高元,劉柏嵩.  計(jì)算機(jī)應(yīng)用研究. 2017(04)
[5]一種基于Boosting的集成學(xué)習(xí)算法在不均衡數(shù)據(jù)中的分類[J]. 李詒靖,郭海湘,李亞楠,劉曉.  系統(tǒng)工程理論與實(shí)踐. 2016(01)
[6]不平衡數(shù)據(jù)加權(quán)集成學(xué)習(xí)算法[J]. 徐麗麗,閆德勤.  微型機(jī)與應(yīng)用. 2015(23)
[7]基于集成學(xué)習(xí)的中文文本欺騙檢測研究[J]. 張虎,譚紅葉,錢宇華,李茹,陳千.  計(jì)算機(jī)研究與發(fā)展. 2015(05)
[8]二手房組合交易匹配決策方法[J]. 梁海明,姜艷萍.  系統(tǒng)工程理論與實(shí)踐. 2015(02)
[9]一種基于動(dòng)態(tài)集成學(xué)習(xí)的機(jī)場噪聲預(yù)測模型[J]. 徐濤,楊奇川,呂宗磊.  電子與信息學(xué)報(bào). 2014(07)
[10]多模式集成的RBF神經(jīng)網(wǎng)絡(luò)天氣預(yù)報(bào)[J]. 熊聰聰,潘璇,趙奇,吳振玲.  天津科技大學(xué)學(xué)報(bào). 2014(01)

碩士論文
[1]一線城市二手房市場發(fā)展現(xiàn)狀及發(fā)展趨勢研究[D]. 吳晗.廣西大學(xué) 2016
[2]基于支持向量回歸的二手房批量評估模型應(yīng)用研究[D]. 宋祖杰.重慶大學(xué) 2016



本文編號:3145524

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/fangdichanjingjilunwen/3145524.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶44450***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com