面向特定領(lǐng)域的新聞網(wǎng)頁(yè)重排序算法研究
本文關(guān)鍵詞:面向特定領(lǐng)域的新聞網(wǎng)頁(yè)重排序算法研究
更多相關(guān)文章: 網(wǎng)頁(yè)重排序 網(wǎng)頁(yè)分類(lèi) 領(lǐng)域向量模型 網(wǎng)頁(yè)信息模型 搜索引擎
【摘要】:隨著互聯(lián)網(wǎng)中網(wǎng)頁(yè)數(shù)量的增加、信息的爆炸,如何從海量數(shù)據(jù)中找到對(duì)用戶(hù)最有價(jià)值的信息,成為了互聯(lián)網(wǎng)中一個(gè)熱門(mén)問(wèn)題。在這樣的背景下,搜索引擎技術(shù)應(yīng)運(yùn)而生,成為用戶(hù)在互聯(lián)網(wǎng)中搜索信息的重要渠道之一。然而,現(xiàn)有的通用搜索引擎存在主題漂移問(wèn)題,即與用戶(hù)查詢(xún)關(guān)鍵詞所屬領(lǐng)域不相符的網(wǎng)頁(yè)會(huì)排在結(jié)果列表的前列,這顯然會(huì)減低用戶(hù)的體驗(yàn)。為了解決通用搜索引擎的主題漂移問(wèn)題,本文在觀察和分析了大量網(wǎng)頁(yè)新聞實(shí)例之后發(fā)現(xiàn),屬于相同領(lǐng)域的新聞網(wǎng)頁(yè)往往包含類(lèi)似的關(guān)鍵詞;谶@個(gè)發(fā)現(xiàn),本文探索了面向特定領(lǐng)域的新聞網(wǎng)頁(yè)重排序算法,并展開(kāi)了以下研究。(1)本文介紹了搜索引擎的相關(guān)背景和技術(shù),重點(diǎn)包括:網(wǎng)絡(luò)爬蟲(chóng)、網(wǎng)頁(yè)分類(lèi)和網(wǎng)頁(yè)排序等;(2)本文研究了特定領(lǐng)域向量模型的構(gòu)建方法,并且針對(duì)特定領(lǐng)域的新聞網(wǎng)頁(yè)構(gòu)建了一個(gè)分類(lèi)器,用來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行分類(lèi),通過(guò)實(shí)驗(yàn)表明,該分類(lèi)器具有較高的分類(lèi)精度;(3)本文提出了一種面向特定領(lǐng)域的新聞網(wǎng)頁(yè)重排序算法-TSRR算法。TSRR算法設(shè)計(jì)了一種獨(dú)立于網(wǎng)頁(yè)排序的模型,用來(lái)表示領(lǐng)域,然后建立網(wǎng)頁(yè)信息模型,針對(duì)新聞網(wǎng)頁(yè),在用戶(hù)檢索過(guò)程中結(jié)合領(lǐng)域向量模型和網(wǎng)頁(yè)信息模型對(duì)網(wǎng)頁(yè)搜索結(jié)果進(jìn)行重排序。在爬取的特定領(lǐng)域的數(shù)據(jù)集上,以用戶(hù)滿(mǎn)意度和準(zhǔn)確率為標(biāo)準(zhǔn)進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,本文中提出的TSRR算法性能優(yōu)異,比經(jīng)典的基于Lucene的排序算法在用戶(hù)滿(mǎn)意度上平均提高17.3%,在準(zhǔn)確率上平均提高41.9%;(4)本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)面向特定領(lǐng)域的新聞網(wǎng)頁(yè)垂直搜索原型系統(tǒng),并將本文設(shè)計(jì)的分類(lèi)器和網(wǎng)頁(yè)重排序算法集成到其中,介紹了系統(tǒng)的框架,實(shí)現(xiàn)以及用戶(hù)界面。
【關(guān)鍵詞】:網(wǎng)頁(yè)重排序 網(wǎng)頁(yè)分類(lèi) 領(lǐng)域向量模型 網(wǎng)頁(yè)信息模型 搜索引擎
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 致謝7-8
- 摘要8-9
- ABSTRACT9-14
- 第一章 緒論14-19
- 1.1 研究背景14-15
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀15-17
- 1.3 本文主要工作17-18
- 1.4 論文組織結(jié)構(gòu)18
- 1.5 本章小結(jié)18-19
- 第二章 相關(guān)技術(shù)體系概述19-45
- 2.1 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)19-25
- 2.2 索引技術(shù)25-29
- 2.2.1 倒排索引25-26
- 2.2.2 索引建立方法26-28
- 2.2.3 索引的更新策略28-29
- 2.3 網(wǎng)頁(yè)分類(lèi)技術(shù)29-36
- 2.3.1 網(wǎng)頁(yè)分類(lèi)定義29-31
- 2.3.2 網(wǎng)頁(yè)分類(lèi)中的相關(guān)特征31-35
- 2.3.3 網(wǎng)頁(yè)特征的選擇35-36
- 2.4 網(wǎng)頁(yè)排序技術(shù)36-41
- 2.4.1 基于內(nèi)容的網(wǎng)頁(yè)排序算法37
- 2.4.2 基于鏈接分析的網(wǎng)頁(yè)排序算法37-41
- 2.5 搜索引擎技術(shù)41-42
- 2.5.1 通用搜索引擎41
- 2.5.2 垂直搜索引擎41-42
- 2.5.3 元搜索引擎42
- 2.6 Lucene項(xiàng)目簡(jiǎn)介42-44
- 2.7 本章小結(jié)44-45
- 第三章 面向特定領(lǐng)域的新聞網(wǎng)頁(yè)重排序算法研究45-63
- 3.1 領(lǐng)域向量模型的構(gòu)建算法45-46
- 3.1.1 領(lǐng)域概述45
- 3.1.2 領(lǐng)域的表示方式45
- 3.1.3 領(lǐng)域向量模型的構(gòu)建算法45-46
- 3.2 面向特定領(lǐng)域的新聞網(wǎng)頁(yè)分類(lèi)器46-53
- 3.2.1 網(wǎng)頁(yè)信息模型的建立47
- 3.2.2 相似度度量方法47-48
- 3.2.3 網(wǎng)頁(yè)分類(lèi)特征提取48-50
- 3.2.4 分類(lèi)實(shí)驗(yàn)及結(jié)果50-53
- 3.3 面向特定領(lǐng)域的新聞網(wǎng)頁(yè)重排序算法53-62
- 3.3.1 面向特定領(lǐng)域的新聞網(wǎng)頁(yè)重排序算法53-54
- 3.3.2 重排序?qū)嶒?yàn)及結(jié)果54-62
- 3.4 本章小結(jié)62-63
- 第四章 面向特定領(lǐng)域的新聞網(wǎng)頁(yè)垂直搜索原型系統(tǒng)63-68
- 4.1 系統(tǒng)框架63-64
- 4.2 主要功能實(shí)現(xiàn)和系統(tǒng)展示64-67
- 4.3 本章小結(jié)67-68
- 第五章 總結(jié)與展望68-70
- 5.1 本文總結(jié)68-69
- 5.2 本文展望69-70
- 參考文獻(xiàn)70-73
- 攻讀碩士學(xué)位期間的學(xué)術(shù)活動(dòng)及成果情況73-74
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王鵬;張永奎;張彥;劉睿;;基于新聞網(wǎng)頁(yè)主題要素的網(wǎng)頁(yè)去重方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年28期
2 吳定明;趙東巖;;一種互聯(lián)網(wǎng)新聞網(wǎng)頁(yè)的采集分析方法[J];計(jì)算機(jī)工程與應(yīng)用;2007年36期
3 唐俊;;復(fù)雜網(wǎng)絡(luò)在新聞網(wǎng)頁(yè)關(guān)鍵詞提取中的應(yīng)用[J];云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
4 鄒永強(qiáng);鐘志農(nóng);;一種高效的新聞網(wǎng)頁(yè)噪聲過(guò)濾方法[J];微型機(jī)與應(yīng)用;2011年16期
5 陳爽;李先國(guó);陳福;李素;;一種抽取新聞網(wǎng)頁(yè)結(jié)構(gòu)化數(shù)據(jù)的方法[J];燕山大學(xué)學(xué)報(bào);2007年06期
6 李振華;;新聞網(wǎng)頁(yè)中的視覺(jué)識(shí)別系統(tǒng)設(shè)計(jì)[J];新聞愛(ài)好者;2010年19期
7 李潤(rùn)彤;;新聞網(wǎng)頁(yè)的視覺(jué)識(shí)別系統(tǒng)設(shè)計(jì)[J];科技傳播;2012年08期
8 葛曉玢;劉杰;崔健;;基于版權(quán)信息的新聞網(wǎng)頁(yè)去重策略研究[J];電腦知識(shí)與技術(shù);2012年26期
9 胡國(guó)平;張巍;王仁華;;基于雙層決策的新聞網(wǎng)頁(yè)正文精確抽取[J];中文信息學(xué)報(bào);2006年06期
10 胡學(xué)鋼;朱珠;吳共慶;;新聞網(wǎng)頁(yè)自動(dòng)識(shí)別的相關(guān)特征研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 王鵬;張永奎;;基于新聞網(wǎng)頁(yè)主題要素的網(wǎng)頁(yè)去重方法研究[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條
1 呂婷婷;統(tǒng)計(jì)和規(guī)則相結(jié)合的新聞網(wǎng)頁(yè)分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
2 王星;新聞網(wǎng)頁(yè)抽取技術(shù)的研究與實(shí)現(xiàn)[D];河北工業(yè)大學(xué);2011年
3 鄒永強(qiáng);新聞網(wǎng)頁(yè)中人物實(shí)體關(guān)系提取技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
4 潘澄;面向特定領(lǐng)域的新聞網(wǎng)頁(yè)重排序算法研究[D];合肥工業(yè)大學(xué);2015年
5 李星華;中英文新聞網(wǎng)頁(yè)關(guān)鍵詞抽取技術(shù)研究[D];合肥工業(yè)大學(xué);2009年
6 毛新武;基于組合特征的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取研究[D];北京林業(yè)大學(xué);2013年
7 尹倩;基于聚類(lèi)分析的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取方法研究[D];合肥工業(yè)大學(xué);2009年
8 侯小可;微博新聞話(huà)題的情感分析研究[D];華北電力大學(xué);2013年
9 加羊吉;藏文新聞網(wǎng)頁(yè)新詞語(yǔ)調(diào)查研究[D];西北民族大學(xué);2011年
,本文編號(hào):692414
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/692414.html