中英文政策垂直搜索引擎研究與實(shí)現(xiàn)
【圖文】:
于詞共現(xiàn)的關(guān)鍵詞提取算法改進(jìn)原理介紹取是文本挖掘領(lǐng)域中的核心技術(shù)之一,然而在大多數(shù)關(guān)鍵政策文本關(guān)鍵詞提取的算法。本文對(duì)比分析了兩種普遍用,并結(jié)合政策文本自身具有的成文特征提出一種基于詞共。經(jīng)實(shí)驗(yàn)驗(yàn)證該方法在政策文本關(guān)鍵詞提取方面比其他鍵詞基本符合實(shí)際需求。方法得到的關(guān)鍵詞有一定程度的偏差,很多高頻詞匯對(duì)文通過(guò)共現(xiàn)詞找出一些低頻卻具有代表性的詞匯。在使用加權(quán)系數(shù) α 和 β 的取值至關(guān)重要,,但是目前一般的取值方針對(duì)性。本文通過(guò)大量觀察政策文本成文規(guī)律得到兩點(diǎn)特共現(xiàn)度計(jì)算公式中系數(shù)的值。一篇從待測(cè)樣本集中隨機(jī)抽取的政策文本的截圖如下:
取并入庫(kù); URL 訪問(wèn)到內(nèi)容頁(yè),抓取帶標(biāo)簽的正文(PolicyBody)并將之入庫(kù)正文抽取插件,從 PolicyBody 中抽取純文本正文(PolicyText)并將網(wǎng)頁(yè)相關(guān)信息(如:政策發(fā)布地區(qū)、政策類型等)并入庫(kù)。表截圖如下:
【學(xué)位授予單位】:河北經(jīng)貿(mào)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 時(shí)永賓;余青松;;基于共現(xiàn)詞卡方值的關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2016年06期
2 羅燕;趙書(shū)良;李曉超;韓玉輝;丁亞飛;;基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J];計(jì)算機(jī)應(yīng)用;2016年03期
3 唐守忠;齊建東;;一種結(jié)合關(guān)鍵詞與共現(xiàn)詞對(duì)的向量空間模型[J];計(jì)算機(jī)工程與科學(xué);2014年05期
4 王錦波;王蓮芝;高萬(wàn)林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期
5 張建娥;;基于TFIDF和詞語(yǔ)關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J];情報(bào)科學(xué);2012年10期
6 牛永潔;張成;;多種字符串相似度算法的比較研究[J];計(jì)算機(jī)與數(shù)字工程;2012年03期
7 王立霞;淮曉永;;基于語(yǔ)義的中文文本關(guān)鍵詞提取算法[J];計(jì)算機(jī)工程;2012年01期
8 刁興春;譚明超;曹建軍;;一種融合多種編輯距離的字符串相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用研究;2010年12期
9 蔣昌金;彭宏;陳建超;馬千里;嚴(yán)桂奪;;基于組合詞和同義詞集的關(guān)鍵詞提取算法[J];計(jì)算機(jī)應(yīng)用研究;2010年08期
10 方俊;郭雷;王曉東;;基于語(yǔ)義的關(guān)鍵詞提取算法[J];計(jì)算機(jī)科學(xué);2008年06期
相關(guān)博士學(xué)位論文 前6條
1 劉宏哲;文本語(yǔ)義相似度計(jì)算方法研究[D];北京交通大學(xué);2012年
2 萬(wàn)源;基于語(yǔ)義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年
3 陳偉;基于時(shí)序文本挖掘的新聞內(nèi)容理解與推薦技術(shù)研究[D];浙江大學(xué);2010年
4 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學(xué);2010年
5 郝秀蘭;文本分類技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年
6 李榮陸;文本分類及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 宏樸;基于Lucene的搜索引擎的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2016年
2 胡博;基于Lucene的垂直搜索引擎研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2016年
3 李欣弘;基于關(guān)聯(lián)規(guī)則和情感分析的圖書(shū)推薦算法研究[D];吉林大學(xué);2016年
4 張佳;基于Android平臺(tái)的在線翻譯軟件設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2016年
5 何榮杰;基于Lucene的全文搜索引擎的研究與實(shí)現(xiàn)[D];江蘇科技大學(xué);2016年
6 朱鵬;英文語(yǔ)料庫(kù)垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
7 王振風(fēng);基于Lucene的分布式全文檢索技術(shù)的研究與應(yīng)用[D];東華大學(xué);2015年
8 李蕓;基于爬蟲(chóng)和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
9 范蕾;基于Lucene的全文檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];廈門(mén)大學(xué);2014年
10 袁明;基于隱性主題模型和新詞發(fā)現(xiàn)的關(guān)鍵詞抽取研究[D];北京郵電大學(xué);2014年
本文編號(hào):2603032
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2603032.html