基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:通用搜索引擎能夠?yàn)槿藗兲峁┽槍?duì)海量信息的檢索服務(wù),搜索結(jié)果“廣而全”,但是對(duì)于特定領(lǐng)域的搜索,通用搜索引擎往往不能滿足人們“精而深”的檢索需求。于是出現(xiàn)了越來(lái)越多的針對(duì)各個(gè)領(lǐng)域的垂直搜索引擎,滿足人們對(duì)于特定領(lǐng)域的信息檢索需求。而隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和普及,網(wǎng)絡(luò)上的文本信息資源急劇增長(zhǎng),如何對(duì)這些網(wǎng)頁(yè)中的信息進(jìn)行文本挖掘就顯得尤為重要。因此,針對(duì)特定領(lǐng)域的文本進(jìn)行挖掘及相關(guān)的分析處理具有重要的意義。 本文主要是圍繞垂直搜索引擎技術(shù)展開(kāi)研究,運(yùn)用文本挖掘算法,將文本聚類技術(shù)應(yīng)用到實(shí)際的系統(tǒng)中,主要工作包括以下內(nèi)容: (1)提出了一種基于Heritrix、Lucene和WebKit的垂直搜索引擎,實(shí)現(xiàn)了對(duì)特定領(lǐng)域的信息采集、預(yù)處理、索引和檢索。在網(wǎng)絡(luò)爬蟲(chóng)的關(guān)鍵技術(shù)方面,利用WebKit來(lái)解析動(dòng)態(tài)網(wǎng)頁(yè),獲取網(wǎng)頁(yè)中的結(jié)構(gòu)化信息。 (2)介紹了用于文本挖掘的各種聚類算法,并在分析和研究的基礎(chǔ)上,提出了一種改進(jìn)的single-pass聚類算法,該方法結(jié)合了層次聚類的思想,先形成初步類后,再由single-pass算法完成聚類;并對(duì)改進(jìn)后的算法進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的single-pass聚類算法,查準(zhǔn)率提高了10%,查全率提高了12%,Fl-measure提高了11%。 (3)詳細(xì)介紹了基于垂直搜索引擎的文本挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。在系統(tǒng)設(shè)計(jì)方面,主要由文本信息采集模塊、文本信息預(yù)處理模塊、文本信息挖掘模塊和文本信息服務(wù)模塊四個(gè)部分組成。在系統(tǒng)實(shí)現(xiàn)方面,給出了系統(tǒng)的整體部署圖和各模塊詳細(xì)的實(shí)現(xiàn)過(guò)程,并給出了系統(tǒng)運(yùn)行的效果圖,實(shí)現(xiàn)了對(duì)手機(jī)評(píng)論信息的文本挖掘和手機(jī)評(píng)測(cè)信息的垂直搜索服務(wù)。
【關(guān)鍵詞】:垂直搜索引擎 文本挖掘 Lucene Heritrix Single-pass算法
【學(xué)位授予單位】:首都師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-7
- 目錄7-9
- 圖目錄9-10
- 表目錄10-11
- 第一章 緒論11-17
- 1.1 研究背景與意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀分析12-15
- 1.2.1 垂直搜索引擎相關(guān)研究分析12-14
- 1.2.2 文本挖掘相關(guān)研究分析14-15
- 1.3 論文的組織結(jié)構(gòu)15-17
- 第二章 垂直搜索引擎技術(shù)剖析17-29
- 2.1 通用搜索引擎17-20
- 2.1.1 網(wǎng)絡(luò)爬蟲(chóng)18-20
- 2.1.2 索引器20
- 2.1.3 檢索器20
- 2.2 Heritrix和Lucene概述20-25
- 2.2.1 基于Heritrix的垂直網(wǎng)絡(luò)爬蟲(chóng)20-21
- 2.2.2 基于Lucene的索引器和搜索器21-24
- 2.2.3 在Lucene中使用ICTCLAS24-25
- 2.3 垂直搜索引擎25-27
- 2.3.1 垂直搜索引擎與通用搜索引擎的區(qū)別25-26
- 2.3.2 垂直搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的關(guān)鍵技術(shù)26-27
- 2.4 本章小結(jié)27-29
- 第三章 文本挖掘相關(guān)技術(shù)29-43
- 3.1 中文文本表示技術(shù)29-31
- 3.1.1 文本特征表示29-30
- 3.1.2 特征提取30-31
- 3.2 文本聚類31-37
- 3.2.1 基于層次的聚類算法32
- 3.2.2 基于劃分的聚類算法32-34
- 3.2.3 基于密度的聚類算法34
- 3.2.4 基于網(wǎng)格的聚類算法34-35
- 3.2.5 經(jīng)典的single-pass聚類算法35-36
- 3.2.6 對(duì)各種聚類算法的比較與總結(jié)36-37
- 3.3 對(duì)經(jīng)典single-pass算法改進(jìn)37-38
- 3.4 文本聚類結(jié)果分析38-39
- 3.5 實(shí)驗(yàn)結(jié)果與分析39-42
- 3.5.1 聚類結(jié)果39-41
- 3.5.2 熱點(diǎn)評(píng)分與類標(biāo)題生成41-42
- 3.6 本章小結(jié)42-43
- 第四章 基于垂直搜索引擎的文本挖掘系統(tǒng)設(shè)計(jì)43-55
- 4.1 系統(tǒng)總體設(shè)計(jì)43-45
- 4.1.1 功能需求43
- 4.1.2 模塊組成43-45
- 4.2 文本信息采集模塊的詳細(xì)設(shè)計(jì)45-47
- 4.2.1 配置文件讀取模塊45-46
- 4.2.2 網(wǎng)絡(luò)爬蟲(chóng)模塊46-47
- 4.3 文本信息預(yù)處理模塊的詳細(xì)設(shè)計(jì)47-49
- 4.3.1 網(wǎng)頁(yè)信息結(jié)構(gòu)化模塊47-48
- 4.3.2 中文分詞模塊48-49
- 4.4 文本信息挖掘模塊的詳細(xì)設(shè)計(jì)49-51
- 4.4.1 聚類分析模塊49-50
- 4.4.2 熱點(diǎn)評(píng)分模塊50-51
- 4.5 文本信息服務(wù)模塊的詳細(xì)設(shè)計(jì)51-53
- 4.5.1 垂直搜索引擎模塊52
- 4.5.2 文本信息展示模塊52-53
- 4.6 本章小結(jié)53-55
- 第五章 基于垂直搜索引擎的文本挖掘系統(tǒng)實(shí)現(xiàn)55-65
- 5.1 開(kāi)發(fā)環(huán)境及系統(tǒng)部署55-57
- 5.2 文本信息采集模塊的實(shí)現(xiàn)57-58
- 5.3 文本信息預(yù)處理模塊的實(shí)現(xiàn)58-60
- 5.4 文本信息挖掘模塊的實(shí)現(xiàn)60-62
- 5.5 文本信息服務(wù)模塊的實(shí)現(xiàn)62-63
- 5.6 本章小結(jié)63-65
- 第六章 總結(jié)與展望65-67
- 6.1 論文總結(jié)65
- 6.2 研究展望65-67
- 參考文獻(xiàn)67-70
- 致謝70-71
- 攻讀碩士學(xué)位期間主要的研究成果71
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 董素芬;蔡金金;趙全東;;基于本體的農(nóng)業(yè)檢索系統(tǒng)研究[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2010年05期
2 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2011年01期
3 白坤;耿國(guó)華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期
4 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計(jì)算機(jī)工程;2012年22期
5 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報(bào)科學(xué);2010年03期
6 王旭仁;鄭秋輝;何發(fā)鎂;李娜;王彥麗;;基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年01期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
2 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年
3 管虎;普適環(huán)境下輕量級(jí)垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學(xué);2013年
本文關(guān)鍵詞:基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):296444
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/296444.html