Web大數(shù)據(jù)環(huán)境下的不一致跨源數(shù)據(jù)發(fā)現(xiàn)
本文關(guān)鍵詞:Web大數(shù)據(jù)環(huán)境下的不一致跨源數(shù)據(jù)發(fā)現(xiàn)
更多相關(guān)文章: Web大數(shù)據(jù) Web數(shù)據(jù)挖掘 數(shù)據(jù)一致性 Web數(shù)據(jù)管理 數(shù)據(jù)質(zhì)量評估 跨源數(shù)據(jù)分析
【摘要】:Web中不同數(shù)據(jù)源之間的數(shù)據(jù)不一致是一個普遍存在的問題,嚴重影響了互聯(lián)網(wǎng)的可信度和質(zhì)量.目前數(shù)據(jù)不一致的研究主要集中在傳統(tǒng)數(shù)據(jù)庫應用中,對于種類多樣、結(jié)構(gòu)復雜、快速變化、數(shù)量龐大的跨源Web大數(shù)據(jù)的一致性研究還很少.針對跨源Web數(shù)據(jù)的多源異構(gòu)特性和Web大數(shù)據(jù)的5V特征,將從站點結(jié)構(gòu)、特征數(shù)據(jù)和知識規(guī)則3個方面建立統(tǒng)一數(shù)據(jù)抽取算法和Web對象數(shù)據(jù)模型;研究不同類型的Web數(shù)據(jù)不一致特征,建立不一致分類模型、一致性約束機制和不一致推理代數(shù)運算系統(tǒng);從而在跨源Web數(shù)據(jù)一致性理論體系的基礎上,實現(xiàn)通過約束規(guī)則檢測、統(tǒng)計偏移分析的Web不一致數(shù)據(jù)自動發(fā)現(xiàn)方法,并結(jié)合這兩種方法的特點,基于Hadoop MapReduce架構(gòu)提出了基于層次概率判定的Web不一致數(shù)據(jù)的自動發(fā)現(xiàn)算法.該框架在Hadoop平臺上對多個B2C電子商務大數(shù)據(jù)進行實驗,并與傳統(tǒng)架構(gòu)和其他方法進行了比較,實驗結(jié)果證明該方法具有良好的精確性和高效性.
【作者單位】: 武漢大學計算機學院;漢口學院計算機科學與技術(shù)學院;空軍預警學院;
【關(guān)鍵詞】: Web大數(shù)據(jù) Web數(shù)據(jù)挖掘 數(shù)據(jù)一致性 Web數(shù)據(jù)管理 數(shù)據(jù)質(zhì)量評估 跨源數(shù)據(jù)分析
【基金】:國家自然科學基金項目(61272109) 中央高;究蒲袠I(yè)務費專項資金項目(2042014kf0057) 湖北省自然科學基金項目(2014CFB289)
【分類號】:TP393.09
【正文快照】: 5V特征,將從站點結(jié)構(gòu)、特征數(shù)據(jù)和知識規(guī)則3個方面建立統(tǒng)一數(shù)據(jù)抽取算法和Web對象數(shù)據(jù)模型;研究不同類型的Web數(shù)據(jù)不一致特征,建立不一致分類模型、一致性約束機制和不一致推理代數(shù)運算系統(tǒng);從而在跨源Web數(shù)據(jù)一致性理論體系的基礎上,實現(xiàn)通過約束規(guī)則檢測、統(tǒng)計偏移分析的Web
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫志偉;;大數(shù)據(jù)時代中小企業(yè)的應對策略[J];未來與發(fā)展;2013年10期
2 ;大數(shù)據(jù)的崛起:趨勢、機遇與挑戰(zhàn)[J];互聯(lián)網(wǎng)周刊;2013年24期
3 鄧春宇;郭陽;李俊妮;王伯伊;;大數(shù)據(jù)在縣級供電公司中的應用[J];農(nóng)村電氣化;2014年03期
4 李曉輝;王淑艷;;大數(shù)據(jù)及其挑戰(zhàn)[J];科技風;2012年23期
5 嚴霄鳳;張德馨;;大數(shù)據(jù)研究[J];計算機技術(shù)與發(fā)展;2013年04期
6 趙敬;;大數(shù)據(jù)在日本的發(fā)展及應用[J];聲屏世界;2013年11期
7 孟小峰;高宏;;大數(shù)據(jù)專題前言[J];軟件學報;2014年04期
8 金保印;;迎接“大數(shù)據(jù)”時代[J];民營科技;2013年03期
9 Peter Liu;;電信行業(yè)中的大數(shù)據(jù)[J];電信網(wǎng)技術(shù);2013年08期
10 侯冬梅;谷雨;谷新勝;;大數(shù)據(jù)在科技、教育與信息領(lǐng)域的應用[J];計算機教育;2014年01期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 李田;郭利;馮鵬;;某型導彈單元設備自動檢測系統(tǒng)軟件設計[A];全國第十五屆計算機科學與技術(shù)應用學術(shù)會議論文集[C];2003年
2 高世光;鄧蘇;王長纓;;關(guān)于ADO+引導數(shù)據(jù)種類的演變的研究[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2001年
3 顏涯;邵佩英;;GIS與MIS系統(tǒng)集成技術(shù)在城市規(guī)劃中的應用[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2000年
4 謝國忠;;大數(shù)據(jù)時代下的企業(yè)管理與創(chuàng)新[A];創(chuàng)新驅(qū)動:新機遇 新挑戰(zhàn)——2013年全國企業(yè)管理創(chuàng)新大會資料匯編[C];2013年
5 王甫棣;祝婷;;氣象傳輸交換控制元數(shù)據(jù)的設計與實現(xiàn)[A];第31屆中國氣象學會年會S13 氣象通信與信息技術(shù)應用實踐與新技術(shù)探索[C];2014年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 ;精簡企業(yè)數(shù)據(jù)是時候了[N];計算機世界;2008年
2 光大證券;“大數(shù)據(jù)”或成重要投資主線[N];中國證券報;2012年
3 本報記者 郭濤 李奕;與大數(shù)據(jù)打交道的那些人[N];中國計算機報;2012年
4 本報記者 齊潔;大數(shù)據(jù)蘊藏創(chuàng)業(yè)空間[N];中國經(jīng)營報;2012年
5 吳勇毅;大數(shù)據(jù)“熱”下的“冷”思考[N];中國冶金報;2012年
6 撫蘇;眾望所歸,大數(shù)據(jù)時代來臨[N];電腦報;2013年
7 《網(wǎng)絡世界》記者 于翔;大數(shù)據(jù)的價值實現(xiàn)之旅[N];網(wǎng)絡世界;2013年
8 本報記者 孫琦子;這些年,一起忽悠著的“大數(shù)據(jù)”[N];經(jīng)濟觀察報;2013年
9 中國科學技術(shù)發(fā)展戰(zhàn)略研究院 許曄;大數(shù)據(jù)時代來襲 中國宜加緊布局[N];經(jīng)濟參考報;2013年
10 記者 李成成;嶄露頭角的大數(shù)據(jù)時代[N];企業(yè)家日報;2013年
中國博士學位論文全文數(shù)據(jù)庫 前5條
1 張?zhí)m廷;大數(shù)據(jù)的社會價值與戰(zhàn)略選擇[D];中共中央黨校;2014年
2 李琦;基于多源數(shù)據(jù)的交通狀態(tài)監(jiān)測與預測方法研究[D];吉林大學;2013年
3 張新;區(qū)域性防災減災信息服務體系研究[D];中國科學院研究生院(遙感應用研究所);2006年
4 李智慧;基于可視化的三維放射治療計算機模擬系統(tǒng)的研究[D];四川大學;2002年
5 袁培森;基于LSH的Web數(shù)據(jù)相似性查詢研究[D];復旦大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉偉;基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量控制與評估模型研究[D];東北石油大學;2011年
2 蘆倩;基于ArcGIS Engine的水文生態(tài)數(shù)據(jù)管理系統(tǒng)設計與實現(xiàn)[D];北京林業(yè)大學;2011年
3 劉偉;光纖資源網(wǎng)GIS管理的數(shù)據(jù)挖掘研究[D];吉林大學;2004年
4 唐鐵虎;基于Web服務的企業(yè)基礎數(shù)據(jù)服務中心研究[D];哈爾濱工程大學;2012年
5 向華;湖北省極端天氣氣候事件監(jiān)測系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2013年
6 黃剛;基于SOA的油田WebGIS研究與實現(xiàn)[D];大慶石油學院;2008年
7 蔡磊;新疆沙漠化監(jiān)測預警系統(tǒng)研究[D];新疆大學;2011年
8 馮勰;基于Oracle的測井數(shù)據(jù)庫的設計與研究[D];吉林大學;2006年
9 馬文惠;基于決策支持的棉庫管理系統(tǒng)研究[D];華北電力大學;2011年
10 賈艷秋;基于GIS的農(nóng)業(yè)宏觀決策支持系統(tǒng)研究[D];北京林業(yè)大學;2007年
,本文編號:817991
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/817991.html