天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于語義的Web信息自動聚合系統(tǒng)的關鍵技術研究

發(fā)布時間:2017-11-05 04:40

  本文關鍵詞:基于語義的Web信息自動聚合系統(tǒng)的關鍵技術研究


  更多相關文章: 信息聚合 LDA 正文抽取 潛在語義


【摘要】:近年來,隨著社會網(wǎng)絡及個人博客、微博的成功,互聯(lián)網(wǎng)已經(jīng)全面進入開放、平等、去中心化為特點的Web2.0時代,網(wǎng)絡信息資源的海量增長使互聯(lián)網(wǎng)信息重復與信息過載的問題日趨嚴重。因此,如何將半結構化、離散分布的互聯(lián)網(wǎng)信息動態(tài)關聯(lián)并聚合起來,有效提供服務并促進知識共享,成為當前國內外學者主要研究方向。 本文在研究文本聚類分析的基礎上,借助中文分詞、文本去重等技術,結合傳統(tǒng)搜索引擎技術及RSS信息聚合技術,提出一種自動精煉Web信息、聚合語義相似信息的信息處理方法,以便根據(jù)潛在語義將相同或相似的Web信息自動聚合,及時發(fā)現(xiàn)新主題,追蹤已有主題的演化趨勢。本文主要研究內容包括: 1、針對傳統(tǒng)信息聚合技術缺乏對信息本身處理的問題,本文提出web信息自動聚合系統(tǒng)設計方案,根據(jù)功能不同將系統(tǒng)分為信息獲取、信息預處理、按語義聚合三部分,并對每一部分的處理過程進行詳細分析與設計。2、研究分析現(xiàn)有網(wǎng)頁正文抽取技術,提出一種基于標點分布和標簽相似度的多正文網(wǎng)頁抽取技術,利用網(wǎng)絡上爬取的網(wǎng)頁進行實驗,實現(xiàn)證明該方法能有效的將網(wǎng)頁中的主要信息分正文抽取。3、深入研究文本主題模型,特別是能根據(jù)文本潛在語義信息對文本進行聚類的LDA主題模型;針對Web信息多樣化、主題多變的特點對LDA進行一定改進,使只能處理離線的、無時間信息的LDA模型應用于在線的Web信息聚合系統(tǒng)中;實驗分析表明,該算法可以根據(jù)潛在語義將所涉主題相關的文檔歸類,同時可以根據(jù)不同時間的主題分布和主題熱度對主題進行演化分析。
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1;TP393.092

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前5條

1 王偉軍;孫晶;;Web2.0的研究與應用綜述[J];情報科學;2007年12期

2 熊回香;陳姍;許穎穎;;基于Web 3.0的個性化信息聚合技術研究[J];情報理論與實踐;2011年08期

3 鄧勝利;;信息聚合服務的發(fā)展與演變研究[J];情報資料工作;2012年01期

4 黃春賢;毛明志;鐘毅;;RSS技術及其發(fā)展探討[J];計算機技術與發(fā)展;2007年05期

5 姜恩波;;基于信息聚合的服務與技術[J];現(xiàn)代圖書情報技術;2007年04期

,

本文編號:1142660

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1142660.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶9eaf7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com