基于云平臺的知識聚類與關聯(lián)挖掘機制研究

發(fā)布時間：2017-08-24 16:11

本文關鍵詞：基于云平臺的知識聚類與關聯(lián)挖掘機制研究

【摘要】：在信息化、大數(shù)據(jù)時代背景下,各種文本數(shù)據(jù)正大量地出現(xiàn)在人們的日常生活中,如搜索引擎查詢、電商的用戶評價、文章摘要等等。人們對互聯(lián)網信息進行瀏覽和匯總消耗的精力與時間也越來越多,為了更好提升服務的質量或者提供新的服務,需要對這些短文本進行數(shù)據(jù)挖掘,給文本定一個語義類別的標示則顯得尤為必要。針對文本摘要、參考文獻、關鍵詞等多維度數(shù)據(jù)挖掘,進行整理推薦文本信息,以便提高讀者閱讀效率與質量。本文整體思想是先對文本進行靜態(tài)聚類,使得文本信息自動歸檔,再基于用戶動態(tài)的瀏覽過程做關聯(lián)規(guī)則分析,得到動態(tài)文本數(shù)據(jù)頻繁項集,最后將頻繁項集在聚類結果中分析找到其關聯(lián)規(guī)則,以提高文本信息查詢的效率,具有非常重要的應用前景與研究意義�；谠破脚_和數(shù)據(jù)挖掘的深入理解,在現(xiàn)有的聚類基礎上做出改進,提出文獻多維度提取分析策略、孤立點檢測與初始中心改進,在云平臺上進行MapReduce處理,提高聚類質量和效率。針對用戶動態(tài)瀏覽過程,提出了一種基于權值矩陣的FP-Growth關聯(lián)規(guī)則,經過時間因子過濾,得到初始矩陣,進一步計算出權值向量,用于FP-Growth算法改進。同時,解決了動態(tài)事務項集部分更新及支持度變化的問題,并依據(jù)聚類結果進行類別篩選,在云平臺上進行并行處理,改進算法性能和時空間效率,最終得到更有效、更精準的頻繁項集,為后續(xù)推送研究做基礎。最后,在實驗平臺上驗證上述改進算法,其算法性能和效率提高很多。
【關鍵詞】：數(shù)據(jù)挖掘 Hadoop 聚類 關聯(lián)規(guī)則 MapReduce
【學位授予單位】：南京郵電大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP393.09;TP391.1
【目錄】：

摘要4-5
Abstract5-8
專用術語注釋表8-9
第一章緒論9-14
1.1 課題研究背景9-11
1.1.1 選題背景9-10
1.1.2 選題意義10-11
1.2 國內外研究現(xiàn)狀11-12
1.3 論文研究內容12-13
1.4 論文組織結構13-14
第二章云平臺和數(shù)據(jù)挖掘相關背景知識介紹14-29
2.1 云平臺概述14-15
2.2 云平臺并行框架MapReduce15-18
2.2.1 基本設計思想15-17
2.2.2 并行編程抽像模型17-18
2.3 文本聚類相關技術18-23
2.3.1 文本聚類18-19
2.3.2 文本表示模型19-20
2.3.3 聚類算法概述20-22
2.3.4 聚類質量評價指標22-23
2.4 文本關聯(lián)規(guī)則相關技術23-28
2.4.1 關聯(lián)規(guī)則定義23-24
2.4.2 FP樹表示法24-26
2.4.3 FP增長算法26-28
2.5 本章小結28-29
第三章云平臺的知識聚類29-45
3.1 數(shù)據(jù)集采集30-32
3.2 文本預處理32-36
3.2.1 中文分詞32-33
3.2.2 停用詞過濾33-34
3.2.3 多維特征選擇34
3.2.4 特征值權值計算34-35
3.2.5 向量空間模型VSM35-36
3.3 改進K-means聚類算法36-39
3.3.1 K-means算法思想36-37
3.3.2 K-means算法步驟37
3.3.3 改進算法37-39
3.4 基于云平臺算法設計39-44
3.4.1 MapReduce模型算法設計39-43
3.4.2 算法流程43-44
3.5 本章小結44-45
第四章云平臺的知識關聯(lián)45-57
4.1 關聯(lián)規(guī)則挖掘的相關工作45-46
4.1.1 瀏覽軌跡日志信息45-46
4.1.2 用戶瀏覽模式挖掘46
4.2 用戶瀏覽路徑關聯(lián)規(guī)則挖掘46-47
4.3 基于用戶瀏覽分析的時間因子47-48
4.3.1 用戶訪問頁面時間47-48
4.3.2 用戶瀏覽描述48
4.4 基于矩陣的FP-Growth改進算法48-53
4.4.1 矩陣的生成48-50
4.4.2 由權值矩陣生成FP-tree50-52
4.4.3 數(shù)據(jù)庫動態(tài)變化更新52
4.4.4 最小支持度變化更新52-53
4.4.5 在聚類中篩選53
4.5 基于云平臺算法設計53-56
4.5.1 算法步驟53-54
4.5.2 MapReduce模型并行化設計54-56
4.6 本章小結56-57
第五章云平臺實驗結果及性能分析57-66
5.1 云平臺環(huán)境57-60
5.1.1 硬件環(huán)境57-58
5.1.2 軟件環(huán)境58
5.1.3 Hadoop平臺58-60
5.2 實驗及性能分析60-65
5.2.1 聚類實驗結果60-62
5.2.2 聚類的實驗評價62-63
5.2.3 關聯(lián)實驗數(shù)據(jù)63
5.2.4 關聯(lián)實驗結果分析63-65
5.3 本章小結65-66
第六章總結與展望66-68
6.1 總結66
6.2 展望66-68
參考文獻68-70
附錄1 攻讀碩士學位期間申請的專利70-71
附錄2 攻讀碩士學位期間參加的科研項目71-72
致謝72

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 香麗蕓;淺談數(shù)據(jù)挖掘及其應用[J];昌吉師專學報;2001年02期

2 鄭雪燕,張杰明,岳洋;數(shù)據(jù)挖掘語言[J];計算機時代;2001年11期

3 劉明晶;數(shù)據(jù)挖掘[J];華南金融電腦;2001年04期

4 張偉;劉勇國;彭軍;廖曉峰;吳中福;;數(shù)據(jù)挖掘發(fā)展研究[J];計算機科學;2001年07期

5 鐘曉;馬少平;張鈸;俞瑞釗;;數(shù)據(jù)挖掘綜述[J];模式識別與人工智能;2001年01期

6 朱建平,張潤楚;數(shù)據(jù)挖掘的發(fā)展及其特點[J];統(tǒng)計與決策;2002年07期

7 傅嵐;在數(shù)據(jù)海洋中打撈信息數(shù)據(jù)挖掘[J];科技廣場;2002年11期

8 李峻;數(shù)據(jù)挖掘,企業(yè)洞察先機的“慧眼”[J];中國計算機用戶;2002年48期

9 羅可,蔡碧野,卜勝賢,謝中科;數(shù)據(jù)挖掘及其發(fā)展研究[J];計算機工程與應用;2002年14期

10 ;2002數(shù)據(jù)挖掘研討班[J];計算機工程;2002年06期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國數(shù)據(jù)庫學術會議論文集（研究報告篇）[C];2000年

2 張弦;;數(shù)據(jù)挖掘在農業(yè)中的應用[A];紀念中國農業(yè)工程學會成立30周年暨中國農業(yè)工程學會2009年學術年會（CSAE 2009）論文集[C];2009年

3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢[A];信息化、工業(yè)化融合與服務創(chuàng)新——第十三屆計算機模擬與信息技術學術會議論文集[C];2011年

4 關清平;沉培輝;;概率網絡在數(shù)據(jù)挖掘上的應用[A];科技、工程與經濟社會協(xié)調發(fā)展——中國科協(xié)第五屆青年學術年會論文集[C];2004年

5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學技術情報學會學術年會論文集[C];2004年

6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務中的應用[A];中南六�。▍^(qū)）自動化學會第24屆學術年會會議論文集[C];2006年

7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關系管理的應用[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用（CACIS）學術會議論文集[C];2007年

8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國鋼鐵行業(yè)中的應用[A];中國計量協(xié)會冶金分會2012年會暨能源計量與節(jié)能降耗經驗交流會論文集[C];2012年

9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應用[A];2009年中國智能自動化會議論文集（第二分冊）[C];2009年

10 謝中;邱玉輝;;面向商務網站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國數(shù)據(jù)庫學術會議論文集（技術報告篇）[C];2001年

中國重要報紙全文數(shù)據(jù)庫前10條

1 本報記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日報;2002年

2 周蓉蓉;數(shù)據(jù)挖掘需要點想像力[N];計算機世界;2004年

3 □中國電信股份有限公司北京研究院張舒博 □北京郵電大學計算機科學與技術學院牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年

4 《網絡世界》記者王瑩;數(shù)據(jù)挖掘保險業(yè)的新藍海[N];網絡世界;2012年

5 劉俊麗;基于地理化的網絡數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年

6 本報記者連曉東;數(shù)據(jù)挖掘：金融信息化新熱點[N];中國電子報;2002年

7 本報記者鳳小華朱仁康;“數(shù)字挖掘軟件”引領中國信息化新浪潮[N];中國電子報;2003年

8 本報記者　史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國旅游報;2002年

9 朱小寧;數(shù)據(jù)挖掘：信息化戰(zhàn)爭的基礎工程[N];解放軍報;2005年

10 本報記者王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時報;2002年

中國博士學位論文全文數(shù)據(jù)庫前10條

1 于自強;海量流數(shù)據(jù)挖掘相關問題研究[D];山東大學;2015年

2 張馨;全基因組SNP芯片應用于CNV和L0H分析的軟件比對與數(shù)據(jù)挖掘[D];復旦大學;2011年

3 彭計紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學;2015年

4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術研究[D];復旦大學;2013年

5 鄔文帥;基于多目標決策的數(shù)據(jù)挖掘方法評估與應用[D];電子科技大學;2015年

6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質量管理方法研究[D];首都經濟貿易大學;2010年

7 何偉全;云南高校學生意外傷害因素關聯(lián)規(guī)則挖掘及風險管控體系研究[D];昆明理工大學;2015年

8 段功豪;基于多結構數(shù)據(jù)挖掘的滑坡災害預測模型研究[D];中國地質大學;2016年

9 白曉明;基于數(shù)據(jù)挖掘的復合材料宏—細觀力學模型研究[D];哈爾濱工業(yè)大學;2016年

10 藍永豪（LAM Wing Ho）;基于數(shù)據(jù)挖掘技術分析當代中醫(yī)名家痤瘡驗方經驗研究[D];南京中醫(yī)藥大學;2016年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 林仁紅;基于數(shù)據(jù)挖掘的機遇識別與評價研究[D];首都經濟貿易大學;2007年

2 張彥俊;游戲運營中的數(shù)據(jù)挖掘[D];復旦大學;2011年

3 王杰鋒;物聯(lián)網能耗數(shù)據(jù)智能分析及其應用平臺設計[D];江南大學;2015年

4 劉學建;數(shù)據(jù)挖掘在電子商務推薦系統(tǒng)中的應用研究[D];昆明理工大學;2015年

5 戴陽陽;基于數(shù)據(jù)挖掘的金融時間序列預測研究與應用[D];江南大學;2015年

6 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術師范學院;2015年

7 陳丹;移動互聯(lián)網信令挖掘實現(xiàn)智慧營銷的設計與實現(xiàn)應用研究[D];華南理工大學;2015年

8 陳思;基于數(shù)據(jù)挖掘的大學生客戶識別模型的研究[D];昆明理工大學;2015年

9 位長帥;基于客戶數(shù)據(jù)挖掘的電信客戶關系管理研究[D];西南交通大學;2015年

10 安康;基于數(shù)據(jù)挖掘的商業(yè)銀行客戶關系管理研究[D];蘭州交通大學;2014年

，

本文編號：732254

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/ydhl/732254.html

上一篇：當前國際互聯(lián)網治理改革新動向探析
下一篇：基于HTTP協(xié)議的地質災害數(shù)據(jù)傳輸系統(tǒng)設計

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于云平臺的知識聚類與關聯(lián)挖掘機制研究