天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-04-10 10:03

  本文關(guān)鍵詞:基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:通用搜索引擎能夠?yàn)槿藗兲峁┽槍?duì)海量信息的檢索服務(wù),搜索結(jié)果“廣而全”,但是對(duì)于特定領(lǐng)域的搜索,通用搜索引擎往往不能滿足人們“精而深”的檢索需求。于是出現(xiàn)了越來(lái)越多的針對(duì)各個(gè)領(lǐng)域的垂直搜索引擎,滿足人們對(duì)于特定領(lǐng)域的信息檢索需求。而隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和普及,網(wǎng)絡(luò)上的文本信息資源急劇增長(zhǎng),如何對(duì)這些網(wǎng)頁(yè)中的信息進(jìn)行文本挖掘就顯得尤為重要。因此,針對(duì)特定領(lǐng)域的文本進(jìn)行挖掘及相關(guān)的分析處理具有重要的意義。 本文主要是圍繞垂直搜索引擎技術(shù)展開(kāi)研究,運(yùn)用文本挖掘算法,將文本聚類技術(shù)應(yīng)用到實(shí)際的系統(tǒng)中,主要工作包括以下內(nèi)容: (1)提出了一種基于Heritrix、Lucene和WebKit的垂直搜索引擎,實(shí)現(xiàn)了對(duì)特定領(lǐng)域的信息采集、預(yù)處理、索引和檢索。在網(wǎng)絡(luò)爬蟲(chóng)的關(guān)鍵技術(shù)方面,利用WebKit來(lái)解析動(dòng)態(tài)網(wǎng)頁(yè),獲取網(wǎng)頁(yè)中的結(jié)構(gòu)化信息。 (2)介紹了用于文本挖掘的各種聚類算法,并在分析和研究的基礎(chǔ)上,提出了一種改進(jìn)的single-pass聚類算法,該方法結(jié)合了層次聚類的思想,先形成初步類后,再由single-pass算法完成聚類;并對(duì)改進(jìn)后的算法進(jìn)行了實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的single-pass聚類算法,查準(zhǔn)率提高了10%,查全率提高了12%,Fl-measure提高了11%。 (3)詳細(xì)介紹了基于垂直搜索引擎的文本挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。在系統(tǒng)設(shè)計(jì)方面,主要由文本信息采集模塊、文本信息預(yù)處理模塊、文本信息挖掘模塊和文本信息服務(wù)模塊四個(gè)部分組成。在系統(tǒng)實(shí)現(xiàn)方面,給出了系統(tǒng)的整體部署圖和各模塊詳細(xì)的實(shí)現(xiàn)過(guò)程,并給出了系統(tǒng)運(yùn)行的效果圖,實(shí)現(xiàn)了對(duì)手機(jī)評(píng)論信息的文本挖掘和手機(jī)評(píng)測(cè)信息的垂直搜索服務(wù)。
【關(guān)鍵詞】:垂直搜索引擎 文本挖掘 Lucene Heritrix Single-pass算法
【學(xué)位授予單位】:首都師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-7
  • 目錄7-9
  • 圖目錄9-10
  • 表目錄10-11
  • 第一章 緒論11-17
  • 1.1 研究背景與意義11-12
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀分析12-15
  • 1.2.1 垂直搜索引擎相關(guān)研究分析12-14
  • 1.2.2 文本挖掘相關(guān)研究分析14-15
  • 1.3 論文的組織結(jié)構(gòu)15-17
  • 第二章 垂直搜索引擎技術(shù)剖析17-29
  • 2.1 通用搜索引擎17-20
  • 2.1.1 網(wǎng)絡(luò)爬蟲(chóng)18-20
  • 2.1.2 索引器20
  • 2.1.3 檢索器20
  • 2.2 Heritrix和Lucene概述20-25
  • 2.2.1 基于Heritrix的垂直網(wǎng)絡(luò)爬蟲(chóng)20-21
  • 2.2.2 基于Lucene的索引器和搜索器21-24
  • 2.2.3 在Lucene中使用ICTCLAS24-25
  • 2.3 垂直搜索引擎25-27
  • 2.3.1 垂直搜索引擎與通用搜索引擎的區(qū)別25-26
  • 2.3.2 垂直搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的關(guān)鍵技術(shù)26-27
  • 2.4 本章小結(jié)27-29
  • 第三章 文本挖掘相關(guān)技術(shù)29-43
  • 3.1 中文文本表示技術(shù)29-31
  • 3.1.1 文本特征表示29-30
  • 3.1.2 特征提取30-31
  • 3.2 文本聚類31-37
  • 3.2.1 基于層次的聚類算法32
  • 3.2.2 基于劃分的聚類算法32-34
  • 3.2.3 基于密度的聚類算法34
  • 3.2.4 基于網(wǎng)格的聚類算法34-35
  • 3.2.5 經(jīng)典的single-pass聚類算法35-36
  • 3.2.6 對(duì)各種聚類算法的比較與總結(jié)36-37
  • 3.3 對(duì)經(jīng)典single-pass算法改進(jìn)37-38
  • 3.4 文本聚類結(jié)果分析38-39
  • 3.5 實(shí)驗(yàn)結(jié)果與分析39-42
  • 3.5.1 聚類結(jié)果39-41
  • 3.5.2 熱點(diǎn)評(píng)分與類標(biāo)題生成41-42
  • 3.6 本章小結(jié)42-43
  • 第四章 基于垂直搜索引擎的文本挖掘系統(tǒng)設(shè)計(jì)43-55
  • 4.1 系統(tǒng)總體設(shè)計(jì)43-45
  • 4.1.1 功能需求43
  • 4.1.2 模塊組成43-45
  • 4.2 文本信息采集模塊的詳細(xì)設(shè)計(jì)45-47
  • 4.2.1 配置文件讀取模塊45-46
  • 4.2.2 網(wǎng)絡(luò)爬蟲(chóng)模塊46-47
  • 4.3 文本信息預(yù)處理模塊的詳細(xì)設(shè)計(jì)47-49
  • 4.3.1 網(wǎng)頁(yè)信息結(jié)構(gòu)化模塊47-48
  • 4.3.2 中文分詞模塊48-49
  • 4.4 文本信息挖掘模塊的詳細(xì)設(shè)計(jì)49-51
  • 4.4.1 聚類分析模塊49-50
  • 4.4.2 熱點(diǎn)評(píng)分模塊50-51
  • 4.5 文本信息服務(wù)模塊的詳細(xì)設(shè)計(jì)51-53
  • 4.5.1 垂直搜索引擎模塊52
  • 4.5.2 文本信息展示模塊52-53
  • 4.6 本章小結(jié)53-55
  • 第五章 基于垂直搜索引擎的文本挖掘系統(tǒng)實(shí)現(xiàn)55-65
  • 5.1 開(kāi)發(fā)環(huán)境及系統(tǒng)部署55-57
  • 5.2 文本信息采集模塊的實(shí)現(xiàn)57-58
  • 5.3 文本信息預(yù)處理模塊的實(shí)現(xiàn)58-60
  • 5.4 文本信息挖掘模塊的實(shí)現(xiàn)60-62
  • 5.5 文本信息服務(wù)模塊的實(shí)現(xiàn)62-63
  • 5.6 本章小結(jié)63-65
  • 第六章 總結(jié)與展望65-67
  • 6.1 論文總結(jié)65
  • 6.2 研究展望65-67
  • 參考文獻(xiàn)67-70
  • 致謝70-71
  • 攻讀碩士學(xué)位期間主要的研究成果71

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條

1 董素芬;蔡金金;趙全東;;基于本體的農(nóng)業(yè)檢索系統(tǒng)研究[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2010年05期

2 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2011年01期

3 白坤;耿國(guó)華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期

4 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計(jì)算機(jī)工程;2012年22期

5 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報(bào)科學(xué);2010年03期

6 王旭仁;鄭秋輝;何發(fā)鎂;李娜;王彥麗;;基于Tika和Lucene的桌面搜索引擎研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年01期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

2 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年

3 管虎;普適環(huán)境下輕量級(jí)垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學(xué);2013年


  本文關(guān)鍵詞:基于垂直搜索引擎的文本挖掘系統(tǒng)研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號(hào):296444

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/296444.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7d95e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com