天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

中英文政策垂直搜索引擎研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-03-27 13:38
【摘要】:隨著人類社會(huì)邁入信息時(shí)代,網(wǎng)絡(luò)已經(jīng)滲透到大眾生活的方方面面,在人們生活中發(fā)揮著越來(lái)越重要的作用。然而,要在數(shù)據(jù)量急劇增長(zhǎng)的網(wǎng)絡(luò)上獲取自己所需要的精確信息,卻變得愈加困難。面對(duì)規(guī)模龐大而又飛速增長(zhǎng)的網(wǎng)絡(luò)空間,人工瀏覽顯然已無(wú)法滿足人們對(duì)信息和知識(shí)的渴求,搜索引擎便成為人們從網(wǎng)絡(luò)獲取有用數(shù)據(jù)的重要途徑,在人們?nèi)粘I詈凸ぷ髦邪l(fā)揮著越來(lái)越重要的作用。垂直搜索引擎即是針對(duì)某一特定行業(yè)領(lǐng)域的專業(yè)搜索工具,可向用戶提供準(zhǔn)確、及時(shí)、完整的行業(yè)領(lǐng)域信息。通過(guò)與外省政策對(duì)比研究,定位我省科技創(chuàng)新活動(dòng)中存在的問(wèn)題,挖掘并篩選出我省科技創(chuàng)新政策需求信息,即篩選出“人有我無(wú)”的政策法規(guī)或者同質(zhì)政策的不同內(nèi)容,為我省科技創(chuàng)新政策法規(guī)制定過(guò)程中的問(wèn)題界定和方案設(shè)計(jì)擇優(yōu)環(huán)節(jié)提供借鑒參考。本文基于已開(kāi)發(fā)完成的政策信息垂直搜索引擎,繼而新增了“人有我無(wú)”搜索、政策輿情搜索、英文政策檢索三大功能模塊。本文首先介紹了實(shí)現(xiàn)中英文搜索引擎的理論基礎(chǔ)和主要技術(shù),然后介紹在“人有我無(wú)”搜索模塊中兩個(gè)文本分類的相關(guān)算法的應(yīng)用和改進(jìn)。改進(jìn)的兩個(gè)算法分別是:1)基于詞共現(xiàn)的政策文本關(guān)鍵詞抽取算法:本文結(jié)合政策文本成文規(guī)律對(duì)基于詞共現(xiàn)關(guān)鍵詞抽取算法中計(jì)算共現(xiàn)詞關(guān)鍵度的兩個(gè)重要系數(shù)α、β進(jìn)行了動(dòng)態(tài)計(jì)算的調(diào)整,使關(guān)鍵詞的抽取更加符合文章大意,降低了在政策文本關(guān)鍵詞抽取中漏取低頻的關(guān)鍵詞概率;2)在文本分類算法研究中改進(jìn)了基于特征詞加權(quán)的計(jì)算關(guān)鍵詞相似度閾值的方法:本文結(jié)合政策文本特征詞的權(quán)值分布規(guī)律對(duì)相似度閾值進(jìn)行動(dòng)態(tài)計(jì)算,使文本分類中特政詞的相似度更加符合實(shí)際情況。對(duì)改進(jìn)后算法與傳統(tǒng)算法進(jìn)行了比較實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明改進(jìn)后的算法性能優(yōu)于傳統(tǒng)算法。最后介紹系統(tǒng)的整體設(shè)計(jì)和各個(gè)模塊的設(shè)計(jì)與實(shí)現(xiàn),并對(duì)所有模塊進(jìn)行了功能測(cè)試測(cè)試結(jié)果顯示各模塊功能實(shí)現(xiàn)良好,能都達(dá)到使用要求。
【圖文】:

政策,文本,共現(xiàn),關(guān)鍵詞提取


于詞共現(xiàn)的關(guān)鍵詞提取算法改進(jìn)原理介紹取是文本挖掘領(lǐng)域中的核心技術(shù)之一,然而在大多數(shù)關(guān)鍵政策文本關(guān)鍵詞提取的算法。本文對(duì)比分析了兩種普遍用,并結(jié)合政策文本自身具有的成文特征提出一種基于詞共。經(jīng)實(shí)驗(yàn)驗(yàn)證該方法在政策文本關(guān)鍵詞提取方面比其他鍵詞基本符合實(shí)際需求。方法得到的關(guān)鍵詞有一定程度的偏差,很多高頻詞匯對(duì)文通過(guò)共現(xiàn)詞找出一些低頻卻具有代表性的詞匯。在使用加權(quán)系數(shù) α 和 β 的取值至關(guān)重要,,但是目前一般的取值方針對(duì)性。本文通過(guò)大量觀察政策文本成文規(guī)律得到兩點(diǎn)特共現(xiàn)度計(jì)算公式中系數(shù)的值。一篇從待測(cè)樣本集中隨機(jī)抽取的政策文本的截圖如下:

網(wǎng)頁(yè),正文,帶標(biāo)簽,插件


取并入庫(kù); URL 訪問(wèn)到內(nèi)容頁(yè),抓取帶標(biāo)簽的正文(PolicyBody)并將之入庫(kù)正文抽取插件,從 PolicyBody 中抽取純文本正文(PolicyText)并將網(wǎng)頁(yè)相關(guān)信息(如:政策發(fā)布地區(qū)、政策類型等)并入庫(kù)。表截圖如下:
【學(xué)位授予單位】:河北經(jīng)貿(mào)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 時(shí)永賓;余青松;;基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2016年06期

2 羅燕;趙書(shū)良;李曉超;韓玉輝;丁亞飛;;基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J];計(jì)算機(jī)應(yīng)用;2016年03期

3 唐守忠;齊建東;;一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對(duì)的向量空間模型[J];計(jì)算機(jī)工程與科學(xué);2014年05期

4 王錦波;王蓮芝;高萬(wàn)林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期

5 張建娥;;基于TFIDF和詞語(yǔ)關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J];情報(bào)科學(xué);2012年10期

6 牛永潔;張成;;多種字符串相似度算法的比較研究[J];計(jì)算機(jī)與數(shù)字工程;2012年03期

7 王立霞;淮曉永;;基于語(yǔ)義的中文文本關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2012年01期

8 刁興春;譚明超;曹建軍;;一種融合多種編輯距離的字符串相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用研究;2010年12期

9 蔣昌金;彭宏;陳建超;馬千里;嚴(yán)桂奪;;基于組合詞和同義詞集的關(guān)鍵詞提取算法[J];計(jì)算機(jī)應(yīng)用研究;2010年08期

10 方俊;郭雷;王曉東;;基于語(yǔ)義的關(guān)鍵詞提取算法[J];計(jì)算機(jī)科學(xué);2008年06期

相關(guān)博士學(xué)位論文 前6條

1 劉宏哲;文本語(yǔ)義相似度計(jì)算方法研究[D];北京交通大學(xué);2012年

2 萬(wàn)源;基于語(yǔ)義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年

3 陳偉;基于時(shí)序文本挖掘的新聞內(nèi)容理解與推薦技術(shù)研究[D];浙江大學(xué);2010年

4 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學(xué);2010年

5 郝秀蘭;文本分類技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年

6 李榮陸;文本分類及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2005年

相關(guān)碩士學(xué)位論文 前10條

1 宏樸;基于Lucene的搜索引擎的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2016年

2 胡博;基于Lucene的垂直搜索引擎研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2016年

3 李欣弘;基于關(guān)聯(lián)規(guī)則和情感分析的圖書(shū)推薦算法研究[D];吉林大學(xué);2016年

4 張佳;基于Android平臺(tái)的在線翻譯軟件設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2016年

5 何榮杰;基于Lucene的全文搜索引擎的研究與實(shí)現(xiàn)[D];江蘇科技大學(xué);2016年

6 朱鵬;英文語(yǔ)料庫(kù)垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年

7 王振風(fēng);基于Lucene的分布式全文檢索技術(shù)的研究與應(yīng)用[D];東華大學(xué);2015年

8 李蕓;基于爬蟲(chóng)和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

9 范蕾;基于Lucene的全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];廈門(mén)大學(xué);2014年

10 袁明;基于隱性主題模型和新詞發(fā)現(xiàn)的關(guān)鍵詞抽取研究[D];北京郵電大學(xué);2014年



本文編號(hào):2603032

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2603032.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c0081***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com