天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

分類學(xué)術(shù)文獻(xiàn)搜索引擎的應(yīng)用和研究

發(fā)布時(shí)間:2017-10-26 10:31

  本文關(guān)鍵詞:分類學(xué)術(shù)文獻(xiàn)搜索引擎的應(yīng)用和研究


  更多相關(guān)文章: 網(wǎng)絡(luò)信息處理 分類搜索引擎 網(wǎng)頁(yè)學(xué)術(shù)性判斷 網(wǎng)頁(yè)分類算法


【摘要】:隨著互聯(lián)網(wǎng)上信息數(shù)量的指數(shù)式增加,與學(xué)術(shù)信息相關(guān)的網(wǎng)站也在隨著增長(zhǎng)。在日常對(duì)學(xué)術(shù)信息進(jìn)行檢索時(shí),我們發(fā)現(xiàn),常用的學(xué)術(shù)搜索引擎在檢索的方式上,基本上都是對(duì)全文的關(guān)鍵字進(jìn)行檢索,但是網(wǎng)頁(yè)中的大部分關(guān)鍵字并不是文章的主題關(guān)鍵字,所以檢索結(jié)果中就會(huì)出現(xiàn)很多與檢索關(guān)鍵字相關(guān)度不高的結(jié)果,并且在學(xué)術(shù)搜索引擎中,關(guān)于學(xué)術(shù)網(wǎng)站的分類,大多數(shù)都是粗略、非專業(yè)的分類,并不能給予用戶很好的指導(dǎo)作用,這些都會(huì)大大的降低用戶的使用體驗(yàn)。為了解決上述問(wèn)題,本文設(shè)計(jì)了一個(gè)基于中圖法分類的學(xué)術(shù)文獻(xiàn)搜索引擎。在網(wǎng)頁(yè)學(xué)術(shù)性判定方面,提出了基于貝葉斯算法的網(wǎng)頁(yè)學(xué)術(shù)性判斷算法,該算法通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容特征、格式特征和結(jié)構(gòu)特征的分析,實(shí)現(xiàn)了網(wǎng)頁(yè)學(xué)術(shù)性的判定;在分類方面,以中圖法的分類大綱作為分類目錄,提出了基于改進(jìn)空間向量模型的學(xué)術(shù)網(wǎng)頁(yè)分類算法,該算法通過(guò)利用網(wǎng)頁(yè)主題關(guān)鍵字構(gòu)建網(wǎng)頁(yè)向量空間,最后實(shí)現(xiàn)了網(wǎng)頁(yè)的正確分類。結(jié)合上述兩個(gè)關(guān)鍵算法,在系統(tǒng)中的網(wǎng)頁(yè)主題提取部分,采用Html Parser技術(shù)與正則表達(dá)式相結(jié)合的網(wǎng)頁(yè)主題提取算法,實(shí)現(xiàn)對(duì)抓取的網(wǎng)頁(yè)主題內(nèi)容的獲取。分詞部分使用的是基于正向最大匹配算法。最后對(duì)抓取的網(wǎng)頁(yè)鏈接建立有效的索引,使用了開(kāi)源的Lucene技術(shù),利用Lucene構(gòu)建高效的索引庫(kù)以滿足用戶查詢功能。最后結(jié)合以上技術(shù),實(shí)現(xiàn)了一個(gè)分類學(xué)術(shù)文獻(xiàn)搜索引擎。
【關(guān)鍵詞】:網(wǎng)絡(luò)信息處理 分類搜索引擎 網(wǎng)頁(yè)學(xué)術(shù)性判斷 網(wǎng)頁(yè)分類算法
【學(xué)位授予單位】:長(zhǎng)安大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 第一章 緒論9-14
  • 1.1 課題研究背景及意義9-10
  • 1.2 國(guó)內(nèi)外的研究現(xiàn)狀10-11
  • 1.3 目前存在的問(wèn)題11-12
  • 1.4 研究的目標(biāo)和內(nèi)容12-14
  • 1.4.1 研究目標(biāo)12-13
  • 1.4.2 研究?jī)?nèi)容13-14
  • 第二章 分類學(xué)術(shù)文獻(xiàn)搜索引擎總體設(shè)計(jì)14-20
  • 2.1 系統(tǒng)需求分析14-15
  • 2.2 系統(tǒng)設(shè)計(jì)要求15-16
  • 2.3 系統(tǒng)功能模塊設(shè)計(jì)16-19
  • 2.3.1 系統(tǒng)工作原理16
  • 2.3.2 系統(tǒng)功能模塊設(shè)計(jì)結(jié)構(gòu)圖16-19
  • 2.4 本章小結(jié)19-20
  • 第三章 網(wǎng)頁(yè)學(xué)術(shù)性判斷算法設(shè)計(jì)與實(shí)現(xiàn)20-32
  • 3.1 網(wǎng)頁(yè)學(xué)術(shù)性判斷現(xiàn)狀20-22
  • 3.1.1 網(wǎng)頁(yè)學(xué)術(shù)性20
  • 3.1.2 網(wǎng)頁(yè)學(xué)術(shù)性判斷依據(jù)20-21
  • 3.1.3 網(wǎng)頁(yè)學(xué)術(shù)性判斷算法研究現(xiàn)狀21-22
  • 3.1.4 現(xiàn)有網(wǎng)頁(yè)學(xué)術(shù)性判斷算法存在的問(wèn)題22
  • 3.2 基于貝葉斯算法的網(wǎng)頁(yè)學(xué)術(shù)性判斷算法設(shè)計(jì)與實(shí)現(xiàn)22-31
  • 3.2.1 貝葉斯定理22-23
  • 3.2.2 網(wǎng)頁(yè)特征提取23-24
  • 3.2.3 網(wǎng)頁(yè)學(xué)術(shù)性判別算法24-25
  • 3.2.4 K值計(jì)算25-28
  • 3.2.5 基于貝葉斯算法的網(wǎng)頁(yè)學(xué)術(shù)性判斷算法的實(shí)現(xiàn)28-31
  • 3.3 本章小結(jié)31-32
  • 第四章 學(xué)術(shù)網(wǎng)頁(yè)分類算法設(shè)計(jì)與實(shí)現(xiàn)32-52
  • 4.1 學(xué)術(shù)網(wǎng)頁(yè)分類需求32-36
  • 4.1.1 學(xué)術(shù)網(wǎng)頁(yè)分類現(xiàn)狀32-33
  • 4.1.2 中圖法分類33-36
  • 4.2 關(guān)鍵詞與中圖法分類的關(guān)系36-38
  • 4.3 常用的分類算法38-39
  • 4.4 基于改進(jìn)向量空間模型的學(xué)術(shù)網(wǎng)頁(yè)分類算法設(shè)計(jì)39-51
  • 4.4.1 基于改進(jìn)向量空間模型的學(xué)術(shù)網(wǎng)頁(yè)分類學(xué)術(shù)網(wǎng)頁(yè)分類算法40-46
  • 4.4.2 基于改進(jìn)向量空間模型的學(xué)術(shù)網(wǎng)頁(yè)分類算法實(shí)現(xiàn)46-51
  • 4.5 本章小結(jié)51-52
  • 第五章 分類學(xué)術(shù)文獻(xiàn)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)52-65
  • 5.1 網(wǎng)絡(luò)爬蟲(chóng)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)52-54
  • 5.1.1 網(wǎng)絡(luò)爬子系統(tǒng)的技術(shù)分析52-53
  • 5.1.2 網(wǎng)絡(luò)爬子系統(tǒng)的系統(tǒng)流程圖53-54
  • 5.2 網(wǎng)頁(yè)內(nèi)容提取模塊54-59
  • 5.2.1 網(wǎng)頁(yè)提取模塊技術(shù)分析54-55
  • 5.2.2 網(wǎng)頁(yè)提取算法設(shè)計(jì)55-57
  • 5.2.3 網(wǎng)頁(yè)提取模塊的實(shí)現(xiàn)57-59
  • 5.3 中文分詞模塊設(shè)計(jì)59-62
  • 5.3.1 中文分詞技術(shù)分析59-60
  • 5.3.2 分詞算法的設(shè)計(jì)60-61
  • 5.3.3 中文分詞算法的實(shí)現(xiàn)61-62
  • 5.4 索引模塊設(shè)計(jì)62-64
  • 5.4.1 索引模塊技術(shù)分析62-63
  • 5.4.2 索引模塊系統(tǒng)實(shí)現(xiàn)63-64
  • 5.5 本章小結(jié)64-65
  • 第六章 學(xué)術(shù)文獻(xiàn)搜索引擎測(cè)試65-74
  • 6.1 系統(tǒng)測(cè)試平臺(tái)65
  • 6.2 網(wǎng)頁(yè)抓取模塊實(shí)驗(yàn)65-66
  • 6.3 中文分詞模塊實(shí)驗(yàn)66
  • 6.4 網(wǎng)頁(yè)學(xué)術(shù)性判別模塊試驗(yàn)66-68
  • 6.5 網(wǎng)頁(yè)分類模塊試驗(yàn)68-70
  • 6.6 索引模塊建立試驗(yàn)結(jié)果70-71
  • 6.7 程序的運(yùn)行結(jié)果及界面信息71-73
  • 6.8 本章小結(jié)73-74
  • 第七章 結(jié)論與工作展望74-76
  • 7.1 結(jié)論74
  • 7.2 工作展望74-76
  • 參考文獻(xiàn)76-78
  • 攻讀碩士學(xué)位期間取得的研究成果78-79
  • 致謝79

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 張東準(zhǔn);網(wǎng)頁(yè)減肥工具大觀[J];電腦技術(shù);2001年04期

2 黃家貞;彈指間網(wǎng)頁(yè)內(nèi)碼隨心換[J];電腦知識(shí)與技術(shù);2004年22期

3 黃家貞;彈指間網(wǎng)頁(yè)內(nèi)碼隨心換[J];網(wǎng)絡(luò)與信息;2004年09期

4 宏偉;巧妙抓取防滾屏網(wǎng)頁(yè)[J];電腦愛(ài)好者;2005年20期

5 啟動(dòng);;淺談網(wǎng)頁(yè)文件引用[J];網(wǎng)絡(luò)與信息;2006年05期

6 小叢;;教你輕松抓取無(wú)法滾屏的網(wǎng)頁(yè)[J];計(jì)算機(jī)與網(wǎng)絡(luò);2006年08期

7 花的神明;;追尋網(wǎng)頁(yè)上閃動(dòng)的音樂(lè)[J];電腦迷;2007年12期

8 秋思;;收藏一個(gè)網(wǎng)頁(yè)只需一個(gè)文件[J];電腦愛(ài)好者(普及版);2009年05期

9 唐永明;;淺議網(wǎng)頁(yè)設(shè)計(jì)與制作[J];科技信息;2009年20期

10 蔣偉;徐義平;;個(gè)性化網(wǎng)頁(yè)淺析[J];魅力中國(guó);2009年35期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條

1 張曉明;奈一雄;齊炯明;安媛媛;張建楠;王靜嫻;;基于信息隱藏的網(wǎng)頁(yè)入侵檢測(cè)技術(shù)與實(shí)現(xiàn)[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年

2 林政;呂雅娟;劉群;馬希榮;;基于雙語(yǔ)混和網(wǎng)頁(yè)的平行語(yǔ)料挖掘[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

3 熊德蘭;鄢靖豐;陳靜;;基于論壇主題的網(wǎng)頁(yè)褒貶傾向性識(shí)別[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

4 隋春明;郭志豐;;網(wǎng)頁(yè)防篡改技術(shù)在電力信息網(wǎng)中的應(yīng)用[A];二○○九年全國(guó)電力企業(yè)信息化大會(huì)論文集[C];2009年

5 王海源;石睿智;;高校網(wǎng)頁(yè)惡意代碼的檢測(cè)、清理與預(yù)防[A];中國(guó)高等教育學(xué)會(huì)教育信息化分會(huì)第十次學(xué)術(shù)年會(huì)論文集[C];2010年

6 戴玉剛;;藏文網(wǎng)頁(yè)采集技術(shù)研究[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

7 劉世杰;唐世渭;楊冬青;王騰蛟;姚小波;;自動(dòng)的WEB信息提取和集成[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 范德生 鄧亞玲;守住網(wǎng)頁(yè)的秘密[N];電腦報(bào);2005年

2 貞;網(wǎng)頁(yè)特效與瘦身專家[N];中國(guó)電腦教育報(bào);2002年

3 網(wǎng)天;在自己的電腦上發(fā)布網(wǎng)頁(yè)[N];大眾科技報(bào);2000年

4 楊興平 六子;我的網(wǎng)頁(yè)你別動(dòng)[N];電腦報(bào);2004年

5 楊耀祥;簡(jiǎn)繁網(wǎng)頁(yè)批量互轉(zhuǎn)有妙法[N];中國(guó)電腦教育報(bào);2003年

6 河北 李永波;網(wǎng)頁(yè)底圖顯個(gè)性[N];電腦報(bào);2004年

7 ;讓你的網(wǎng)頁(yè)綻放最美麗的特效[N];中國(guó)電腦教育報(bào);2004年

8 劉成富;編輯網(wǎng)頁(yè)有妙法[N];計(jì)算機(jī)世界;2004年

9 綿陽(yáng)南山 iled;讓 Frontpage 2000 給我們“一了百了”[N];電腦報(bào);2001年

10 陳宗偉;妙用查找替換功能編輯網(wǎng)頁(yè)[N];電腦報(bào);2004年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 李浩;基于眼動(dòng)特征的小屏幕設(shè)備網(wǎng)頁(yè)內(nèi)容適配研究[D];華中師范大學(xué);2013年

2 計(jì)華;Web Spam特征分析及其檢測(cè)技術(shù)研究[D];山東師范大學(xué);2015年

3 陳定權(quán);自動(dòng)主題搜索的應(yīng)用研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年

4 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 杜明明;基于關(guān)鍵詞的垃圾網(wǎng)頁(yè)判別研究[D];哈爾濱工業(yè)大學(xué);2015年

2 劉慕凡;基于主題與語(yǔ)義的作弊網(wǎng)頁(yè)檢測(cè)方法研究[D];北京化工大學(xué);2015年

3 賀知義;基于關(guān)鍵詞的搜索引擎網(wǎng)頁(yè)去重算法研究[D];華中師范大學(xué);2015年

4 李小娟;基于分類技術(shù)的網(wǎng)頁(yè)去噪方法的研究[D];貴州師范大學(xué);2015年

5 李亞?wèn)|;網(wǎng)頁(yè)取證若干關(guān)鍵問(wèn)題研究[D];合肥工業(yè)大學(xué);2014年

6 孫健;基于程序切片的網(wǎng)頁(yè)過(guò)濾技術(shù)[D];南京郵電大學(xué);2015年

7 肖蒙;基于多示例學(xué)習(xí)的網(wǎng)絡(luò)毒品信息檢索[D];北京交通大學(xué);2016年

8 朱華麗;集成網(wǎng)頁(yè)質(zhì)量特征的垃圾網(wǎng)頁(yè)檢測(cè)特征模型及模型驗(yàn)證[D];西南交通大學(xué);2016年

9 孟慶飛;基于統(tǒng)計(jì)的Web網(wǎng)頁(yè)分類算法研究[D];中國(guó)地質(zhì)大學(xué)(北京);2016年

10 李楊;分類學(xué)術(shù)文獻(xiàn)搜索引擎的應(yīng)用和研究[D];長(zhǎng)安大學(xué);2016年



本文編號(hào):1098297

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1098297.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dd938***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com