天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

開放域黨建信息自動獲取及智能標(biāo)引系統(tǒng)的設(shè)計與實(shí)現(xiàn)

發(fā)布時間:2021-02-16 09:28
  “互聯(lián)網(wǎng)+黨建”概念提出以來,互聯(lián)網(wǎng)上黨建領(lǐng)域信息日趨豐富。面向黨建領(lǐng)域的垂直檢索系統(tǒng)可以為黨建用戶提供專業(yè)準(zhǔn)確且低冗余的領(lǐng)域內(nèi)容。構(gòu)建黨建垂直領(lǐng)域檢索系統(tǒng)需要以黨建領(lǐng)域文本作為基礎(chǔ)數(shù)據(jù)。同時為了提升黨建領(lǐng)域垂直檢索系統(tǒng)的檢索質(zhì)量,需要將黨建領(lǐng)域文本中包含的關(guān)鍵信息標(biāo)引出來,作為檢索結(jié)果展示給用戶,使返回結(jié)果更加直觀。如果可以挖掘出用戶檢索內(nèi)容中潛在的實(shí)體關(guān)系,并結(jié)合從黨建數(shù)據(jù)中標(biāo)記出的實(shí)體關(guān)系對待檢索內(nèi)容進(jìn)行處理,則可以改善黨建領(lǐng)域垂直檢索系統(tǒng)中用戶查詢內(nèi)容與檢索結(jié)果之間的相關(guān)性。為解決黨建領(lǐng)域文本數(shù)據(jù)的采集問題,本文設(shè)計了開放域黨建信息自動獲取系統(tǒng),提出了基于語義關(guān)系與鏈接結(jié)構(gòu)、用于預(yù)測未訪問鏈接主題相關(guān)性的鏈接主題相關(guān)度預(yù)測算法,并基于此算法實(shí)現(xiàn)了黨建領(lǐng)域語義相關(guān)度主題爬蟲,用于采集互聯(lián)網(wǎng)開放域中的黨建信息。根據(jù)選定的主題詞,利用頁面描述信息,基于維基百科中文語料訓(xùn)練出的詞向量綜合HowNet計算頁面的語義相關(guān)度,結(jié)合URL的結(jié)構(gòu)信息預(yù)測未訪問URL鏈指的頁面與黨建領(lǐng)域的相關(guān)程度。最終將系統(tǒng)采集到的黨建領(lǐng)域數(shù)據(jù)作為構(gòu)建黨建領(lǐng)域垂直搜索引擎的基礎(chǔ)數(shù)據(jù)。為解決目前缺少用于提升黨建領(lǐng)域... 

【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院沈陽計算技術(shù)研究所)遼寧省

【文章頁數(shù)】:73 頁

【學(xué)位級別】:碩士

【部分圖文】:

開放域黨建信息自動獲取及智能標(biāo)引系統(tǒng)的設(shè)計與實(shí)現(xiàn)


采集系統(tǒng)處理流程示意圖

示意圖,采集系統(tǒng),架構(gòu),示意圖


圖 3.2 采集系統(tǒng)架構(gòu)示意圖Figure 3.2 Schematic diagram of acquisition system architecture種子任務(wù)表示采集起始鏈接的采集任務(wù),采集模塊首先將種子任務(wù)提交至待采集隊列。對于隊列內(nèi)未訪問的鏈接,首先計算其指向頁面的概述信息與黨建主題的語義相關(guān)度,若不相關(guān)則認(rèn)為頁面屬于黨建主題的概率較低,改用主題詞直接匹配的方式處理;否則,解析該鏈接指向的頁面正文,并對其中各鏈接計算其錨文本與黨建主題的語義相關(guān)度、鏈接的結(jié)構(gòu)信息并綜合得到未訪問鏈接主題相關(guān)度并進(jìn)行過濾。為解決采集量級較大時計算鏈接結(jié)構(gòu)信息開銷過大的問題,采用從緩存中抽樣的方式以降低耗時。采集模塊的工作流程如圖 3.3。

工作流程圖,采集模塊,工作流程圖


圖 3.3 采集模塊工作流程圖Figure 3.3 Flow chart of collector module化模塊包括數(shù)據(jù)庫存儲、文件存儲兩個部分。采集過程的臨時結(jié)果中,采集模塊需要加載的部分?jǐn)?shù)據(jù)保存于文件。為加速語義相關(guān)度計算相似度的數(shù)據(jù)文件被構(gòu)建外部索引,利用索引加速查詢數(shù)據(jù)文件過計算中間結(jié)果添加至內(nèi)存緩存,以加快黨建信息采集速率。來自采集數(shù)據(jù)與過濾模塊的處理結(jié)果均持久化到數(shù)據(jù)庫。對于持久化模塊,針 流處理任務(wù),中間結(jié)果被發(fā)送至為流處理器提供服務(wù)的消息隊列之后續(xù)包裝器對保存于消息隊列中的格式化文本數(shù)據(jù),進(jìn)行關(guān)系抽取理后,生成實(shí)時 RDF 流,由 RDF 流處理引擎進(jìn)行處理。模塊主要負(fù)責(zé)過濾無關(guān)數(shù)據(jù),由于部分導(dǎo)航頁含有大量 URL,正文對錨文本比例過低,解析正文時準(zhǔn)確性降低,導(dǎo)致站點(diǎn)內(nèi)通用聲明信

【參考文獻(xiàn)】:
期刊論文
[1]面向圖書主題的爬蟲算法研究[J]. 張莉婧,曾慶濤,李業(yè)麗,孫華艷,字云飛.  計算機(jī)科學(xué). 2017(S2)
[2]基于依存分析的開放式中文實(shí)體關(guān)系抽取方法[J]. 李明耀,楊靜.  計算機(jī)工程. 2016(06)
[3]基于知識庫和主題爬蟲的南海輿情實(shí)時監(jiān)測研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬.  情報雜志. 2016(05)
[4]基于分類關(guān)鍵詞詞頻模型的地緣政治主題爬蟲設(shè)計[J]. 魏勇,胡丹露,郝晨光,歐小平.  計算機(jī)工程. 2016(02)
[5]一種主動發(fā)現(xiàn)網(wǎng)絡(luò)地理信息服務(wù)的主題爬蟲[J]. 沈平,桂志鵬,游蘭,胡凱,吳華意.  地球信息科學(xué)學(xué)報. 2015(02)
[6]基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究[J]. 黃仁,王良偉.  計算機(jī)應(yīng)用研究. 2013(08)

碩士論文
[1]面向檢驗檢疫領(lǐng)域主題爬蟲的研究及系統(tǒng)實(shí)現(xiàn)[D]. 周桓.浙江大學(xué) 2017



本文編號:3036576

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3036576.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3e38b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com