移動(dòng)平臺(tái)下基于K-means的租房信息聚類(lèi)算法研究與實(shí)現(xiàn)
本文關(guān)鍵詞:移動(dòng)平臺(tái)下基于K-means的租房信息聚類(lèi)算法研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:移動(dòng)互聯(lián)網(wǎng)的發(fā)展,加快了數(shù)據(jù)的產(chǎn)生速度;促進(jìn)了云計(jì)算、大數(shù)據(jù)等數(shù)據(jù)處理技術(shù)的進(jìn)步。為解決通用搜索引擎應(yīng)對(duì)海量數(shù)據(jù)檢索時(shí)返回信息量大、查詢(xún)精度低等弊病,各類(lèi)垂直搜索引擎網(wǎng)站迅速發(fā)展。安居客作為專(zhuān)業(yè)性的房源類(lèi)信息搜索網(wǎng)站,提供大量的房源信息。租房類(lèi)信息是各類(lèi)房源信息中數(shù)據(jù)量最大、更新最快的一類(lèi)房源信息。面對(duì)大量的房源類(lèi)信息,研發(fā)人員一直研究如何提高服務(wù)質(zhì)量和用戶(hù)訪(fǎng)問(wèn)量。通過(guò)統(tǒng)計(jì)用戶(hù)搜索行為,對(duì)于大量分頁(yè)返回的結(jié)果,用戶(hù)只對(duì)前幾頁(yè)感興趣。將大量的房源信息,快速全面的呈現(xiàn)在用戶(hù)面前是一個(gè)值得研究的課題。 移動(dòng)平臺(tái)下利用地圖服務(wù),將租房信息散布在地圖上有助于利用位置服務(wù)針對(duì)性瀏覽房源信息。地圖呈現(xiàn)的屏幕是有限的,尤其是移動(dòng)端受屏幕大小制約,單條呈現(xiàn)所能呈現(xiàn)的數(shù)據(jù)量更受到制約。探索解決出租房源密度與地圖比例之間的問(wèn)題,提出將租房類(lèi)信息進(jìn)行聚類(lèi)顯示的思想。 聚類(lèi)之前,對(duì)存儲(chǔ)在服務(wù)端的數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)對(duì)元數(shù)據(jù)進(jìn)行清洗、集成、變換、歸約四個(gè)步驟的依次處理,減小移動(dòng)端數(shù)據(jù)處理的計(jì)算量。詳細(xì)分析租房類(lèi)信息在各個(gè)階段處理的過(guò)程,并在最大500萬(wàn)條的數(shù)據(jù)上進(jìn)行數(shù)據(jù)預(yù)處理的實(shí)驗(yàn)分析。 移動(dòng)端利用服務(wù)端傳來(lái)的數(shù)據(jù)進(jìn)行聚類(lèi),研究移動(dòng)平臺(tái)下中心點(diǎn)與K值選擇相關(guān)問(wèn)題,并提出基于地理位置的K-means聚類(lèi)算法步驟;通過(guò)分析地圖不同縮放比下聚類(lèi)屬性選擇,提出了采用基于K-means改進(jìn)的K-prototypes的算法進(jìn)行對(duì)多維混合屬性進(jìn)行聚類(lèi);同時(shí)為減少計(jì)算與數(shù)據(jù)傳輸,當(dāng)前地圖位置移動(dòng)時(shí),采用新數(shù)據(jù)部分聚類(lèi)的思想進(jìn)行再聚類(lèi)。最后,分析了算法的實(shí)驗(yàn)性能。初步投放市場(chǎng)的效果也表明該功能的上線(xiàn)在移動(dòng)端提高了33%的瀏覽量。
【關(guān)鍵詞】:移動(dòng)互聯(lián)網(wǎng) 租房類(lèi)信息 地圖搜房 數(shù)據(jù)預(yù)處理 K-means聚類(lèi)
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP393.092;TP391.3
【目錄】:
- 摘要5-6
- Abstract6-9
- 第一章 緒論9-16
- 1.1 研究背景9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 聚類(lèi)分析研究現(xiàn)狀10-12
- 1.2.2 K-means應(yīng)用研究12-13
- 1.3 研究目的和意義13
- 1.4 論文的研究?jī)?nèi)容13-14
- 1.5 論文的結(jié)構(gòu)安排14-16
- 第二章 相關(guān)理論與知識(shí)研究16-24
- 2.1 K-means聚類(lèi)分析16-19
- 2.1.1 K-means算法的思想和原理16-17
- 2.1.2 K-means中心點(diǎn)選擇研究17-19
- 2.2 Android相關(guān)概述19-22
- 2.2.1 Android平臺(tái)19-20
- 2.2.2 Android系統(tǒng)架構(gòu)20-22
- 2.3 本章小結(jié)22-24
- 第三章 租房類(lèi)信息數(shù)據(jù)預(yù)處理研究24-35
- 3.1 數(shù)據(jù)清洗24-26
- 3.1.1 屬性缺失值處理24-25
- 3.1.2 數(shù)據(jù)去噪處理25-26
- 3.2 數(shù)據(jù)集成處理26
- 3.3 數(shù)據(jù)變換處理26-27
- 3.4 數(shù)據(jù)歸約27-30
- 3.4.1 聚類(lèi)屬性選擇28
- 3.4.2 維度歸約與數(shù)值歸約28-29
- 3.4.3 數(shù)據(jù)離散化處理和概念分層29-30
- 3.5 性能分析30-34
- 3.5.1 數(shù)據(jù)清洗30-31
- 3.5.2 數(shù)據(jù)集成31-32
- 3.5.3 數(shù)據(jù)變換32-33
- 3.5.4 數(shù)據(jù)歸約33-34
- 3.6 本章小結(jié)34-35
- 第四章 移動(dòng)找房的K-means聚類(lèi)算法應(yīng)用實(shí)現(xiàn)35-46
- 4.1 租房類(lèi)信息的K-means聚類(lèi)分析35-37
- 4.1.1 K值與中心點(diǎn)選擇35-36
- 4.1.2 基于地理位置的租房類(lèi)信息聚類(lèi)36-37
- 4.2 地圖比例變化時(shí)K-means重聚類(lèi)分析37-39
- 4.2.1 多維屬性選擇37-38
- 4.2.2 多維混合屬性聚類(lèi)分析38-39
- 4.3 位置移動(dòng)下K-means重聚類(lèi)分析39-42
- 4.3.1 數(shù)據(jù)重用與傳輸40-42
- 4.3.2 部分聚類(lèi)思想42
- 4.4 性能分析42-45
- 4.4.1 數(shù)據(jù)傳輸與中心點(diǎn)選擇42-43
- 4.4.2 移動(dòng)端聚類(lèi)性能43-44
- 4.4.3 綜合性能評(píng)測(cè)44-45
- 4.5 本章小結(jié)45-46
- 第五章 總結(jié)與展望46-48
- 5.1 論文總結(jié)46
- 5.2 工作展望46-48
- 參考文獻(xiàn)48-52
- 在校期間發(fā)表的論文和參加的科研項(xiàng)目52-53
- 致謝53
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 程瑩;張?jiān)朴?徐雷;房秉毅;;基于Hadoop及關(guān)系型數(shù)據(jù)庫(kù)的海量數(shù)據(jù)分析研究[J];電信科學(xué);2010年11期
2 胡偉;;Android系統(tǒng)架構(gòu)及其驅(qū)動(dòng)研究[J];廣州廣播電視大學(xué)學(xué)報(bào);2010年04期
3 孫士保;秦克云;;改進(jìn)的k-平均聚類(lèi)算法研究[J];計(jì)算機(jī)工程;2007年13期
4 張玉芳,毛嘉莉,熊忠陽(yáng);一種改進(jìn)的K-means算法[J];計(jì)算機(jī)應(yīng)用;2003年08期
5 傅德勝;周辰;;基于密度的改進(jìn)K均值算法及實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2011年02期
6 菅志剛,金旭;數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2004年07期
7 張科澤;楊鶴標(biāo);沈項(xiàng)軍;蔣中秋;;基于節(jié)點(diǎn)數(shù)據(jù)密度的分布式K-means聚類(lèi)算法研究[J];計(jì)算機(jī)應(yīng)用研究;2011年10期
8 王林;吳海橋;鄭友石;;一種改進(jìn)的K均值聚類(lèi)算法[J];科技信息;2010年32期
9 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計(jì)算機(jī)研究與發(fā)展;2013年01期
10 易宏銀;;數(shù)據(jù)挖掘在電信行業(yè)應(yīng)用探討[J];通信與信息技術(shù);2008年04期
本文關(guān)鍵詞:移動(dòng)平臺(tái)下基于K-means的租房信息聚類(lèi)算法研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):408753
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/408753.html