基于大規(guī)模文本數(shù)據(jù)集的相似檢測關鍵技術研究
本文選題:大數(shù)據(jù) + 相似檢測; 參考:《吉林大學》2016年博士論文
【摘要】:隨著互聯(lián)網(wǎng)技術及相關產(chǎn)業(yè)的迅猛發(fā)展,數(shù)據(jù)正以前所未有的規(guī)模急速增加,數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源;掌控數(shù)據(jù)資源的能力是國家數(shù)字主動權的體現(xiàn)。因此數(shù)據(jù)的收集、存儲、處理、分析以及由此產(chǎn)生的信息服務正成為全球信息技術發(fā)展的主流,大數(shù)據(jù)研究和應用已成為產(chǎn)業(yè)升級與新產(chǎn)業(yè)崛起的重要推動力量。作為一種商業(yè)資本和戰(zhàn)略資源,大數(shù)據(jù)在帶給推動力的同時,也帶來了挑戰(zhàn);如何在海量數(shù)據(jù)中探尋有價值的資源,是擺在研究者面前的首要任務。然而,海量信息中也夾雜了大量重復或相似內(nèi)容,這些內(nèi)容的存在,不但浪費了大量存儲資源,降低網(wǎng)絡的傳輸速度,也直接影響搜索引擎的整體性能,加重了用戶尋找有價值資源的負擔。大數(shù)據(jù)處理目標是以有效的信息技術手段和計算方法,挖掘和提取數(shù)據(jù)中的深度價值資源,為行業(yè)提供高附加值的應用和服務。因此,如何有效管理和利用海量信息,使用合適的技術,篩選掉其中無用或不相關的內(nèi)容,快速高效地發(fā)掘出潛在價值的知識與信息,并進行合理分類、準確定位,是當前大數(shù)據(jù)處理中亟需解決的問題。因此,本論文針對大規(guī)模文本數(shù)據(jù)的相似檢測問題,圍繞數(shù)據(jù)的分類與挖掘、特征提取、相似檢測、Map Reduce計算模型等相關理論和關鍵技術的研究,設計了以關聯(lián)規(guī)則和樸素貝葉斯為基礎的多重置信門限值分類分類方法;提出基于互信息的詞頻文本特征提取方案;構建了并行化的大規(guī)模文本相似檢測平臺。本研究在理論上具有創(chuàng)新性,實踐上有可行性。具體來說,主要工作與創(chuàng)新體現(xiàn)在以下方面:1.針對相似檢測的背景知識,研究針對文本分類的相關理論與技術。文本分類的任務是在給定的分類體系下,根據(jù)每類樣本的數(shù)據(jù)信息,建立相應的類別判定公式和類別判定規(guī)則,并總結出分類規(guī)律。這樣,當需要為待分類文本確定其類別時,根據(jù)已總結的類別判定公式和類別判定規(guī)則,就能夠把待分類文本劃分到相應的類別中去。分類過程包括:文本預處理、特征選擇、特征加權、文本表示和分類算法等關鍵技術;論文在對上述過程進行深入的研究后,重點研究分類器的設計與實現(xiàn)、分類評價標準等;上述過程的研究,為文本相似檢測奠定理論基礎。2.針對相似檢測過程分類精確率低等問題,結合樸素貝葉斯分類和關聯(lián)規(guī)則挖掘,提出了一種具有多重門限值的分類方法。該方法應用于大規(guī)模文本數(shù)據(jù)集的分類過程,能有效地提高文檔分類精確度。由于貝葉斯分類優(yōu)點在于計算過程簡單,但忽略了文本詞組間的相互聯(lián)系,所以可采用關聯(lián)規(guī)則挖掘方法,為有關系的文本類設定合適置信門限值,分類器將為文檔分類的執(zhí)行獲得較高的精確率,從而彌補了貝葉斯分類的缺點。該方法首先通過算法將預處理的文本數(shù)據(jù)庫轉變成關聯(lián)規(guī)則,在排序規(guī)則集中,對訓練數(shù)據(jù)集的分類從第一條規(guī)則開始判斷,若第一條規(guī)則分類精確率比指定規(guī)則的置信門限值高,則從訓練數(shù)據(jù)集中刪除通過指定規(guī)則分類的數(shù)據(jù),并且保存這一規(guī)則到規(guī)則集中去,創(chuàng)建關聯(lián)分類器;否則,這一規(guī)則將從分類器中刪除。該過程一直重復進行下去,直到所有排序的規(guī)則都被識別后,獲得所有支持度大于最小支持度的關聯(lián)規(guī)則。實驗驗證表明,該方法相比較于單獨分類器的分類結果,能夠獲得較高的分類精確率和召回率。3.針對在相似檢測過程中,提取特征向量精度低、特征子集數(shù)量大的問題,提出了基于互信息的詞頻文本特征提取方法。該方法以輸入類別集合、各個類別中文本和每個文本詞條在類別中出現(xiàn)次數(shù)為初始條件,首先,對輸入類別的文本進行分詞建立索引,然后對文本中詞條循環(huán)讀取,在訓練集內(nèi)的每個類別文本中計算特征詞出現(xiàn)次數(shù)大于或等于某個值的文本數(shù);接著,計算特征詞相對于每個類別的特征頻率和每個文本中出現(xiàn)的平均次數(shù);最后,在各個類別中計算詞條互信息值,將值最大的詞條放入特征集合中,直到特征詞個數(shù)達到閾值后,完成對文本特征的提取。通過在Sogou T語料庫上測試和驗證,該方法不僅能夠獲取較小特征子集,而且保持了較高分類精度。4.針對大規(guī)模文本數(shù)據(jù)相似檢測過程中,數(shù)據(jù)量大、并行設計方法復雜且效率低的問題,提出了云平臺下的大規(guī)模文本相似檢測方法。該方法借鑒Sim Hash算法,使用段落加權長句的方法來獲得段落指紋,然后利用Map Reduce計算模型計算相似度。具體來說,首先采用特征提取方法獲得文本的段落指紋,將該指紋作為關鍵字排序并建立索引;其次用待檢測文本的段落指紋在已有的文本庫中進行索引,檢索出可能重復或相似的文本;最后,根據(jù)檢索的結果,與待檢測文本執(zhí)行相互的具體相似度計算,根據(jù)計算結果,決定待檢測文本是否與已有文本近似。通過搭建Hadoop實驗平臺,采用三種不同規(guī)模的網(wǎng)頁數(shù)據(jù)集來驗證所設計方案的可行性,在數(shù)據(jù)集上分別執(zhí)行運算時間和加速度比測試,實驗數(shù)據(jù)表明,經(jīng)過Map Reduce并行化設計后,相似檢測的執(zhí)行時間和效率得到顯著的改善,特別是隨著數(shù)據(jù)規(guī)模的增大和Hadoop集群中機器數(shù)量的增多,算法效率提升更明顯,針對大規(guī)模數(shù)據(jù)集的相似檢測優(yōu)勢更加突出。
[Abstract]:......
【學位授予單位】:吉林大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 董璇;蔡立軍;;基于不平衡類數(shù)據(jù)集分類的空間插值方法[J];計算機仿真;2012年12期
2 張諍;王惠文;;大規(guī)模復雜數(shù)據(jù)集的約簡方法[J];計算機工程;2010年23期
3 ;拒絕數(shù)字化[J];每周電腦報;1999年03期
4 呂海燕;李華偉;呂紅;方霞;;元數(shù)據(jù)注冊系統(tǒng)中數(shù)據(jù)集分類在衛(wèi)生信息系統(tǒng)中的應用[J];計算技術與自動化;2011年03期
5 顧靜秋;吳華瑞;朱華吉;;數(shù)據(jù)集濃縮研究綜述[J];計算機應用與軟件;2012年10期
6 趙成龍;陳樂義;張冉;李紅;;一種快速有效處理數(shù)據(jù)集分類問題的新算法[J];山東科技大學學報(自然科學版);2006年04期
7 張宏基;李文中;陸桑璐;;基于異步信息的匿名移動數(shù)據(jù)集的用戶身份識別[J];計算機科學;2013年11期
8 李芳芳;田志軍;;數(shù)據(jù)庫快速查詢方法研究與應用[J];微電子學與計算機;2012年03期
9 趙國強;王會進;;一種用于大規(guī)模數(shù)據(jù)集的決策樹采樣策略[J];微型機與應用;2010年21期
10 李浩;梅清;鄭祥穩(wěn);;ADO.NET中的數(shù)據(jù)集訪問技巧[J];軟件導刊;2006年13期
相關會議論文 前8條
1 許曉峰;金澈清;高明;周傲英;;面向大型數(shù)據(jù)集合的關鍵分類查找算法[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
2 馬垣;崔麗;劉鴻雁;梁材;;關系中的概念與命題[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2000年
3 郭景峰;杜京;馬倩;鄒曉紅;;一種基于數(shù)據(jù)集性質的快速等差模式聚類算法[A];第二十五屆中國數(shù)據(jù)庫學術會議論文集(二)[C];2008年
4 向堅;俞堅;葉綠;;一種高效的大規(guī)模RFID數(shù)據(jù)集合清理方法[A];第六屆全國信息獲取與處理學術會議論文集(3)[C];2008年
5 盧建松;曹慶華;傅翠嬌;;探究Delphi平臺下處理.NET Web Service返回數(shù)據(jù)集的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
6 張路;袁曉潔;劉芳;竇志成;;大規(guī)模數(shù)據(jù)集的分布式索引機制研究[A];2008年全國開放式分布與并行計算機學術會議論文集(下冊)[C];2008年
7 于愛榮;劉曉明;曹雷;王俊;;NET Web Services數(shù)據(jù)集在Delphi中的處理與研究[A];中國航空學會信號與信息處理專業(yè)全國第八屆學術會議論文集[C];2004年
8 王加陽;;動態(tài)約簡抽樣分析[A];2006年全國理論計算機科學學術年會論文集[C];2006年
相關重要報紙文章 前1條
1 李開鵬 溫德成;SPSS:質量信息管理的助手[N];中國質量報;2005年
相關博士學位論文 前7條
1 王海濤;基于大規(guī)模文本數(shù)據(jù)集的相似檢測關鍵技術研究[D];吉林大學;2016年
2 申彥;大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D];江蘇大學;2013年
3 唐勤;非均衡數(shù)據(jù)分類算法及其在助學貸款風險管理中的應用研究[D];華中科技大學;2012年
4 谷瓊;面向非均衡數(shù)據(jù)集的機器學習及在地學數(shù)據(jù)處理中的應用[D];中國地質大學;2009年
5 于澝;基于一維SOM神經(jīng)網(wǎng)絡的聚類及數(shù)據(jù)分析方法研究[D];天津大學;2009年
6 彭濤;基于特征和實例的海量數(shù)據(jù)約簡方法研究[D];華中科技大學;2011年
7 於躍成;基于半監(jiān)督學習的分布式和演化聚類研究[D];南京航空航天大學;2012年
相關碩士學位論文 前10條
1 李建勛;基于模糊聚類分析的數(shù)據(jù)異常知識發(fā)現(xiàn)方法[D];哈爾濱工業(yè)大學;2015年
2 俞闖;半監(jiān)督學習中不平衡數(shù)據(jù)集分類研究[D];大連理工大學;2015年
3 周維潔;基于智能手機的車輛彎道識別與相對定位的研究[D];黑龍江大學;2015年
4 楊寶栓;基于顯露模式的早期網(wǎng)癮行為檢測模型的研究與實現(xiàn)[D];東北大學;2013年
5 孫渤禹;面向失衡數(shù)據(jù)集分類問題的研究與應用[D];哈爾濱理工大學;2014年
6 李豐;面向動態(tài)數(shù)據(jù)集重發(fā)布的隱私保護研究[D];復旦大學;2009年
7 姚冰;一種改進的非平衡數(shù)據(jù)集支持向量機分類算法[D];吉林大學;2010年
8 郝姝雯;基于支持向量機的不平衡數(shù)據(jù)集分類算法研究[D];哈爾濱工程大學;2011年
9 王喜紅;基于數(shù)據(jù)集的數(shù)據(jù)交換技術研究[D];東北石油大學;2012年
10 李思本;面向失衡數(shù)據(jù)集的預測方法研究[D];哈爾濱理工大學;2015年
,本文編號:1768575
本文鏈接:http://www.sikaile.net/guanlilunwen/renliziyuanguanlilunwen/1768575.html