基于語義的Web信息自動聚合系統(tǒng)的關鍵技術研究

發(fā)布時間：2017-11-05 04:40

本文關鍵詞：基于語義的Web信息自動聚合系統(tǒng)的關鍵技術研究

更多相關文章： 信息聚合 LDA 正文抽取 潛在語義

【摘要】：近年來,隨著社會網(wǎng)絡及個人博客、微博的成功,互聯(lián)網(wǎng)已經(jīng)全面進入開放、平等、去中心化為特點的Web2.0時代,網(wǎng)絡信息資源的海量增長使互聯(lián)網(wǎng)信息重復與信息過載的問題日趨嚴重。因此,如何將半結構化、離散分布的互聯(lián)網(wǎng)信息動態(tài)關聯(lián)并聚合起來,有效提供服務并促進知識共享,成為當前國內外學者主要研究方向。本文在研究文本聚類分析的基礎上,借助中文分詞、文本去重等技術,結合傳統(tǒng)搜索引擎技術及RSS信息聚合技術,提出一種自動精煉Web信息、聚合語義相似信息的信息處理方法,以便根據(jù)潛在語義將相同或相似的Web信息自動聚合,及時發(fā)現(xiàn)新主題,追蹤已有主題的演化趨勢。本文主要研究內容包括： 1、針對傳統(tǒng)信息聚合技術缺乏對信息本身處理的問題,本文提出web信息自動聚合系統(tǒng)設計方案,根據(jù)功能不同將系統(tǒng)分為信息獲取、信息預處理、按語義聚合三部分,并對每一部分的處理過程進行詳細分析與設計。2、研究分析現(xiàn)有網(wǎng)頁正文抽取技術,提出一種基于標點分布和標簽相似度的多正文網(wǎng)頁抽取技術,利用網(wǎng)絡上爬取的網(wǎng)頁進行實驗,實現(xiàn)證明該方法能有效的將網(wǎng)頁中的主要信息分正文抽取。3、深入研究文本主題模型,特別是能根據(jù)文本潛在語義信息對文本進行聚類的LDA主題模型；針對Web信息多樣化、主題多變的特點對LDA進行一定改進,使只能處理離線的、無時間信息的LDA模型應用于在線的Web信息聚合系統(tǒng)中；實驗分析表明,該算法可以根據(jù)潛在語義將所涉主題相關的文檔歸類,同時可以根據(jù)不同時間的主題分布和主題熱度對主題進行演化分析。
【學位授予單位】：北京郵電大學
【學位級別】：碩士
【學位授予年份】：2014
【分類號】：TP391.1;TP393.092

【參考文獻】

中國期刊全文數(shù)據(jù)庫前5條

1 王偉軍;孫晶;;Web2.0的研究與應用綜述[J];情報科學;2007年12期

2 熊回香;陳姍;許穎穎;;基于Web 3.0的個性化信息聚合技術研究[J];情報理論與實踐;2011年08期

3 鄧勝利;;信息聚合服務的發(fā)展與演變研究[J];情報資料工作;2012年01期

4 黃春賢;毛明志;鐘毅;;RSS技術及其發(fā)展探討[J];計算機技術與發(fā)展;2007年05期

5 姜恩波;;基于信息聚合的服務與技術[J];現(xiàn)代圖書情報技術;2007年04期

，

本文編號：1142660

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1142660.html

上一篇：從人肉搜索看信息時代公民隱私權的保護
下一篇：師范類高校網(wǎng)站的網(wǎng)絡影響力對比研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語義的Web信息自動聚合系統(tǒng)的關鍵技術研究