什么是搜索引擎_《吉林大學》2010年碩士論文
本文關鍵詞:個性化網(wǎng)絡搜索引擎研究,由筆耕文化傳播整理發(fā)布。
《吉林大學》 2010年
個性化網(wǎng)絡搜索引擎研究
郭曉剛
【摘要】: 隨著信息技術的進步與互聯(lián)網(wǎng)絡的飛速發(fā)展,Web已經(jīng)成為了人們獲取信息的一種重要途徑。為了滿足用戶的信息檢索需求,搜索引擎應運而生,但因為技術的發(fā)展,現(xiàn)在的搜索引擎已經(jīng)越來越無法令用戶完全滿意。本文針對搜索引擎的不足,在已有研究工作的基礎上,對個性化網(wǎng)絡搜索引擎進行了研究,并給出了相應的解決方法。 論文首先對搜索引擎進行了綜述包括搜索引擎的原理、現(xiàn)狀、存在的問題、發(fā)展趨勢等。針對個性化的網(wǎng)絡搜索引擎的獨特之處,分析了個性化網(wǎng)絡搜索引擎所需要的一些關鍵技術。進一步,針對其中的中文分詞技術和用戶興趣挖掘技術做了重點研究。分析了常用的自動分詞算法,針對最大匹配法(MM算法)中存在的問題,把其中的減字規(guī)則改為增字規(guī)則,提出了一種改進的分詞算法。通過對標準PageRank算法的深入研究發(fā)現(xiàn),可以利用用戶先前訪問過的導航路徑圖來修正標準PageRank算法,同時,在考慮到不同用戶訪問不同網(wǎng)頁的實際情況不同時,將當前網(wǎng)頁對不同鏈出網(wǎng)頁的推薦能力設定為非均衡的,由此得出一個優(yōu)化的PageRank算法——基于用戶訪問日志的個性化PageRank算法。 最后在上述研究基礎上,使用PHP和MySQL實現(xiàn)了一個搜索原型系統(tǒng)MySearch。
【關鍵詞】:
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2010
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 張美珍;王治瑩;;基于用戶查詢意圖的搜索排序算法[J];天津理工大學學報;2012年03期
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 汪曉巖,胡慶生,李斌,莊鎮(zhèn)泉;面向Internet的個性化智能信息檢索[J];計算機研究與發(fā)展;1999年09期
2 楊文峰,李星;網(wǎng)絡搜索引擎的用戶查詢分析[J];計算機工程;2001年06期
3 金澎;劉毅;王樹梅;;漢語分詞對中文搜索引擎檢索性能的影響[J];情報學報;2006年01期
4 李樹青;;結合網(wǎng)頁內容分析的PageRank算法初探[J];情報雜志;2005年12期
5 俞立文 ,趙政;搜索引擎的工作機制[J];微型機與應用;2002年09期
6 蔣萍,崔志明;智能搜索引擎中用戶興趣模型分析與研究[J];微電子學與計算機;2004年11期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 董玉德,王志誠,王明保,李道倫;基于WEB課件中動態(tài)題庫的設計與開發(fā)[J];安徽紡織職業(yè)技術學院學報;2003年01期
2 郭力軍;朱群雄;;基于RSS數(shù)據(jù)源的用戶興趣模型改進及應用[J];北京化工大學學報(自然科學版);2011年01期
3 趙靜;個性化信息檢索及功能模型[J];圖書與情報;2004年01期
4 宋偉,王舉成,馬根峰,趙濟林;Internet數(shù)據(jù)挖掘原理及實現(xiàn)[J];重慶郵電學院學報(自然科學版);2001年02期
5 胡國忠;;對信息檢索系統(tǒng)應用技術的數(shù)學表示模型的分析[J];長沙航空職業(yè)技術學院學報;2005年04期
6 齊海英;戚國強;王立舒;;鄉(xiāng)(鎮(zhèn))級農業(yè)綜合信息服務平臺的研究與設計[J];東北農業(yè)大學學報;2006年01期
7 吳麗華;馮建平;羅云鋒;;面向網(wǎng)絡教育的個性化智能搜索引擎的設計與實現(xiàn)[J];中國遠程教育;2007年07期
8 徐麟軍;吳飛;李伐;;學習資源個性化檢索系統(tǒng)中用戶興趣建模研究[J];電腦知識與技術;2008年26期
9 林錦賢,鐘春芳;基于Agent的Web網(wǎng)頁自適應檢索模型[J];福州大學學報(自然科學版);2000年03期
10 李燕;;多Agent技術在信息檢索中的應用[J];廣西師范大學學報(自然科學版);2007年02期
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 胡健;開放式分布協(xié)作信息技術[D];電子科技大學;2000年
2 張玉芳;基于媒體素材庫的學習內容構建方法研究[D];重慶大學;2001年
3 李廣建;個性化網(wǎng)絡信息檢索系統(tǒng)的研究與實現(xiàn)[D];中國科學院研究生院(文獻情報中心);2002年
4 李洪寧;萬維網(wǎng)地理信息系統(tǒng)分布式理論體系研究與實現(xiàn)[D];中國地質大學(北京);2003年
5 應曉敏;面向Internet個性化服務的用戶建模技術研究[D];中國人民解放軍國防科學技術大學;2003年
6 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學;2001年
7 朱征宇;Web資源組織與服務性能研究[D];重慶大學;2003年
8 陳福集;電子政務系統(tǒng)中面向公眾的信息集成化管理與個性化服務研究[D];合肥工業(yè)大學;2004年
9 歐潔;聯(lián)合數(shù)字圖書館信息服務的關鍵技術研究[D];中國科學院研究生院(計算技術研究所);2002年
10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年
【同被引文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 張磊;陳俊亮;孟祥武;沈筱彥;郭杰;;基于用戶偏好的垂直搜索算法[J];電子科技大學學報;2010年01期
2 錢功偉;倪林;曹榮;;基于網(wǎng)頁鏈接和內容分析的改進PageRank算法[J];計算機工程與應用;2007年21期
3 何國斌;趙晶璐;;Web頁面主題相關性排序算法的研究[J];計算機工程與應用;2009年23期
4 王鐘斐;王彪;;基于錨文本相似度的PageRank改進算法[J];計算機工程;2010年24期
5 唐曉玲;何天云;;基于主題偏好的個性化檢索模型研究[J];情報雜志;2011年04期
6 段淮川;胡平;;基于主題特征和時間因子的改進PageRank算法[J];計算機工程與設計;2010年04期
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 宋建康,張禮平;Web結構挖掘算法探討[J];華東理工大學學報;2003年05期
2 李永平,文坤梅;集成搜索引擎中結果排序的優(yōu)化分析[J];華中科技大學學報(自然科學版);2003年11期
3 汪曉巖,胡慶生,李斌,莊鎮(zhèn)泉;面向Internet的個性化智能信息檢索[J];計算機研究與發(fā)展;1999年09期
4 蔡登;盧增祥;李衍達;;信息協(xié)同過濾[J];計算機科學;2002年06期
5 陸麗娜,楊怡玲,管旭東,魏恒義;Web日志挖掘中的數(shù)據(jù)預處理的研究[J];計算機工程;2000年04期
6 鐘清流;Web數(shù)據(jù)挖掘的BN實現(xiàn)方案[J];計算機工程;2001年06期
7 黃于藍,王洪,徐端頤,賈惠波;搜索引擎技術的新發(fā)展—多元搜索引擎系統(tǒng)[J];計算機工程;2002年01期
8 陳寶樹,黨齊民;Web數(shù)據(jù)挖掘中的數(shù)據(jù)預處理[J];計算機工程;2002年07期
9 肖立英,李建華,譚立球;Web日志挖掘技術的研究與應用[J];計算機工程;2002年07期
10 郭景峰,米浦波,劉國華;決策樹算法的并行性研究[J];計算機工程;2002年08期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 宋立軍;;淺論網(wǎng)絡數(shù)學搜索中的數(shù)學查詢語言與索引的研究[J];科技創(chuàng)新導報;2011年21期
2 郭紹華;;網(wǎng)絡信息檢索技術的現(xiàn)狀及發(fā)展趨勢[J];黑龍江教育學院學報;2011年06期
3 郭菲;;網(wǎng)絡引擎搜索對熱點問題的追蹤分析[J];科技促進發(fā)展(應用版);2010年10期
4 ;微軟撿便宜[J];上海微型計算機;1998年33期
5 ;視野[J];新聞實踐;2011年09期
6 黃夢縈;;國內高校圖書館ALEPH500系統(tǒng)Web OPAC功能及使用情況比較[J];新聞傳播;2011年07期
7 ;新軟物語[J];電腦愛好者;2011年01期
8 周博;劉奕群;張敏;金奕江;馬少平;;錨文本檢索有效性分析[J];軟件學報;2011年08期
9 紅客王子;;裝個文件監(jiān)控器 保護網(wǎng)站安全[J];電腦愛好者;2011年09期
10 梁永演;;淺析搜索引擎的超鏈接分析排序算法[J];晉圖學刊;2011年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳穎;;對網(wǎng)絡搜索引擎輔助翻譯的反思[A];全國首屆翻譯碩士(MTI)教育與翻譯產(chǎn)業(yè)研討會論文集[C];2009年
2 張星星;穗志方;;基于網(wǎng)頁中深度并列結構的實例提取算法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 岑榮偉;劉奕群;茹立云;張敏;馬少平;;基于虛擬主題的網(wǎng)絡關鍵資源頁面定位技術研究[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
4 藺繼國;徐錫山;;一種基于用戶點擊數(shù)據(jù)的個性化PageRank算法[A];第六屆全國信息檢索學術會議論文集[C];2010年
5 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質量的PageRank算法改進[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
6 李文;李淼;張建;朱海;陳雷;;基于混淆網(wǎng)絡和PageRank的Nbest重排序[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
7 葛正榮;李婷玉;姚天昉;;漢語情感問題類型分類研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年
8 劉建毅;王菁華;王樅;;基于語言網(wǎng)絡的關鍵詞抽取[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
9 陸勇;侯漢清;;基于詞典注釋的漢語同義詞自動識別[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
10 劉菁菁;林鴻飛;楊志豪;;基于PageRank和錨文本的網(wǎng)頁排序研究[A];第三屆學生計算語言學研討會論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 陸影;[N];中國信息報;2001年
2 康樂;[N];中國化工報;2002年
3 本報記者 施嘉奇;[N];文匯報;2010年
4 本報記者 劉麗麗;[N];計算機世界;2011年
5 康樂;[N];計算機世界;2002年
6 記者 柴麗;[N];中國檔案報;2009年
7 京 勇;[N];中國企業(yè)報;2004年
8 魏 薇;[N];中國信息報;2004年
9 靖紅;[N];國際經(jīng)貿消息;2001年
10 王軍賢;[N];西部時報;2005年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 王菁華;文本中知識的獲取[D];北京郵電大學;2008年
2 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
3 涂錕;基于自然語言與記憶再重構的常識推理模型[D];華南理工大學;2010年
4 吳永輝;面向專業(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
5 梁浩;Deep Web信息集成架構及相關問題研究[D];吉林大學;2010年
6 陳德品;基于遷移學習的跨領域排序學習算法研究[D];中國科學技術大學;2010年
7 余俊豐;Web程序與數(shù)據(jù)安全研究[D];華中科技大學;2011年
8 沈慧鋒;遠程富媒體的呈現(xiàn)[D];中國科學技術大學;2010年
9 趙潔;基于粒計算的Web使用挖掘研究[D];華南理工大學;2010年
10 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 郭曉剛;個性化網(wǎng)絡搜索引擎研究[D];吉林大學;2010年
2 張婷;分布式網(wǎng)絡搜索引擎的研究與實現(xiàn)[D];解放軍信息工程大學;2011年
3 陳瑜芳;主題爬蟲系統(tǒng)的研究[D];武漢理工大學;2010年
4 屠輝;中文重復網(wǎng)頁的檢測算法研究[D];北京郵電大學;2010年
5 文敬斌;基于網(wǎng)絡設備的網(wǎng)頁過濾設計與實現(xiàn)[D];電子科技大學;2011年
6 黃偉光;網(wǎng)頁木馬的防御與檢測技術研究[D];北京交通大學;2011年
7 易方昶;基于網(wǎng)頁后門木馬監(jiān)測系統(tǒng)的研究和設計[D];北京化工大學;2010年
8 盧承山;基于領域的主題信息采集技術研究[D];武漢理工大學;2011年
9 尹力;網(wǎng)頁防篡改系統(tǒng)在校園網(wǎng)中的應用研究[D];河北科技大學;2011年
10 史晶晶;基于CRF的Web機構實體信息抽取系統(tǒng)[D];吉林大學;2011年
本文關鍵詞:個性化網(wǎng)絡搜索引擎研究,,由筆耕文化傳播整理發(fā)布。
本文編號:133244
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/133244.html