垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用
本文關(guān)鍵詞:垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
《西南交通大學(xué)》 2014年
垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用
張莉
【摘要】:計算機與網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,促使當(dāng)今社會進入了網(wǎng)絡(luò)信息時代,各個領(lǐng)域的數(shù)據(jù)和信息急劇增多,海量數(shù)據(jù)豐富了人們的生活,同時也增加了用戶對信息的篩選時間。如何從這些雜亂無章的龐大數(shù)據(jù)和強干擾的信息中搜索出有利用價值的信息,這對人類的智能信息處理能力提出了空前的挑戰(zhàn)。在某些專業(yè)領(lǐng)域,通用搜索引擎的信息查全率和查準(zhǔn)率都在不斷下降,而用戶對獲取更加精準(zhǔn)和詳細(xì)的專業(yè)信息的需求卻在不斷增長。 面對這些挑戰(zhàn),誕生了針對特定領(lǐng)域和個性化信息檢索的垂直搜索引擎;贚ucene的垂直搜索引擎己經(jīng)成為當(dāng)今搜索引擎和Web信息挖掘中的一個研究熱點和難點,本文的研究就是以這一熱點和難點技術(shù)而展開的,主要工作如下: 第一,對垂直搜索引擎的相關(guān)研究進展和現(xiàn)狀進行了分析,介紹了垂直搜索引擎的組成并細(xì)述了其工作原理;概述了全文檢索引擎Lucene的相關(guān)技術(shù),包括Lucene框架構(gòu)成、索引技術(shù)和搜索機制等,并對Lucene索引和數(shù)據(jù)庫索引進行了比較。 第二,針對通用分詞系統(tǒng)對領(lǐng)域分詞的效果不理想這一問題,研究了垂直搜索引擎的中文分詞算法;分析圖書領(lǐng)域詞匯的特點,提出了一種帶詞長的雙字哈希詞典機制,并在此機制的基礎(chǔ)上改進了正向最大匹配分詞算法; 第三,針對Lucene中排序技術(shù)只關(guān)注網(wǎng)頁內(nèi)容而忽視網(wǎng)頁本身的重要性這一問題,研究了基于鏈接的網(wǎng)頁排序算法;在考慮圖書數(shù)據(jù)特點和網(wǎng)頁的重要性的基礎(chǔ)上,改進了基于PageRank的Lucene排序算法。 第四,在分詞和排序改進的基礎(chǔ)上,設(shè)計和實現(xiàn)一個面向圖書信息的垂直搜索引擎系統(tǒng),實現(xiàn)的功能主要包括網(wǎng)頁的爬取,網(wǎng)頁信息抽取,索引的建立和查詢界面等;并通過對比驗證了改進分詞和排序后的查詢效果。 最后,總結(jié)了本論文的主要內(nèi)容,指出本系統(tǒng)存在的問題,以及對未來的展望。
【關(guān)鍵詞】:
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳祐昕;順風(fēng);;網(wǎng)絡(luò)搜索引擎的發(fā)展趨勢分析[J];當(dāng)代傳播;2007年03期
2 許華;劉勇;;中文分詞詞典機制的研究[J];福建電腦;2010年03期
3 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期
4 王瓊;搜索引擎的四大發(fā)展趨勢[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年03期
5 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J];計算機時代;2010年02期
6 張巍,李志蜀;基于PageRank算法的搜索引擎優(yōu)化策略[J];計算機應(yīng)用;2005年07期
7 羅浩;魏祖寬;金在弘;;面向GIS基于專有名詞優(yōu)先的中文分詞方法[J];計算機應(yīng)用;2010年07期
8 曹倩,丁艷,王超,潘金貴;漢語自動分詞研究及其在信息檢索中的應(yīng)用[J];計算機應(yīng)用研究;2004年05期
9 李紹華;高文宇;;搜索引擎頁面排序算法研究綜述[J];計算機應(yīng)用研究;2007年06期
10 楊克特;陳華鈞;;面向特定領(lǐng)域的語義搜索結(jié)果排序算法[J];計算機應(yīng)用與軟件;2011年12期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 史斌;面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)研究[D];北京工業(yè)大學(xué);2010年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 董妍汝;;中文分詞技術(shù)在搜索引擎中的應(yīng)用[J];辦公自動化;2010年04期
2 閆淑紅;;基于搜索引擎的信息查詢技術(shù)研究[J];辦公自動化;2011年06期
3 馮哲;孫吉貴;張長勝;王巖;;漢語語音合成的研究進展[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2007年02期
4 何友全;徐小樂;徐澄;欒紅玉;唐華姣;;搜索引擎用戶接口設(shè)計[J];重慶理工大學(xué)學(xué)報(自然科學(xué)版);2010年09期
5 汪洋;;學(xué)術(shù)搜索引擎的現(xiàn)狀及發(fā)展趨勢[J];重慶工學(xué)院學(xué)報(社會科學(xué)版);2008年10期
6 蔡兵;胡敏;;基于Lucene2.0的書目搜索引擎設(shè)計[J];重慶圖情研究;2009年01期
7 閆淑紅;;基于搜索引擎的信息查詢技術(shù)研究[J];電腦開發(fā)與應(yīng)用;2011年07期
8 彭建榮;羅永會;;搜索引擎的基本原理及發(fā)展趨勢[J];電腦知識與技術(shù);2006年02期
9 郭屹;;對中文自動分詞機制的研究和改進[J];電腦知識與技術(shù);2008年07期
10 蔣明亮;李志清;;網(wǎng)站內(nèi)容檢索系統(tǒng)的設(shè)計[J];電腦知識與技術(shù);2009年05期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年
2 栗振江;楊洋;李麗;;智能問答系統(tǒng)[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年
3 張健沛;徐潑;楊靜;;一種輕量級個性化搜索引擎系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
4 張玉連;張敏;張波;;一種無詞典分詞方法的分析與研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
2 袁方;面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué);2006年
3 顏端武;面向知識服務(wù)的智能推薦系統(tǒng)研究[D];南京理工大學(xué);2007年
4 傅魁;基于Web的本體學(xué)習(xí)研究[D];武漢理工大學(xué);2007年
5 王瑞琴;基于語義處理技術(shù)的信息檢索模型研究[D];浙江大學(xué);2009年
6 陳圣兵;基于商空間理論的海量信息檢索模型的研究[D];安徽大學(xué);2010年
7 黃建年;農(nóng)業(yè)古籍的計算機斷句標(biāo)點與分詞標(biāo)引研究[D];南京農(nóng)業(yè)大學(xué);2009年
8 王鑒全;基于概念圖挖掘的中文文本傾向性研究[D];大連理工大學(xué);2012年
9 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
10 錢海忠;語義萬維網(wǎng)服務(wù)若干關(guān)鍵技術(shù)的研究[D];南京郵電大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 徐財應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進[D];長春理工大學(xué);2010年
2 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學(xué);2010年
3 劉靖媛;個性搜索引擎中用戶興趣模型研究[D];哈爾濱工程大學(xué);2010年
4 劉文輝;基于鏈接結(jié)構(gòu)的網(wǎng)頁排序算法研究[D];哈爾濱工程大學(xué);2010年
5 汪永偉;搜索引擎中網(wǎng)頁排序算法的研究與實現(xiàn)[D];哈爾濱工程大學(xué);2010年
6 孔勝;文本資源的知識抽取研究[D];大連理工大學(xué);2010年
7 于飛;基于搜索引擎的個性化推薦研究[D];哈爾濱理工大學(xué);2010年
8 鐘鴻鵬;基于時態(tài)信息的網(wǎng)頁排序系統(tǒng)的研究與實現(xiàn)[D];華南理工大學(xué);2010年
9 徐德玉;中文文檔內(nèi)容相似度檢測方法研究[D];長春工業(yè)大學(xué);2010年
10 劉飛榮;SOM算法的改進及其在中文文本聚類的應(yīng)用[D];南昌大學(xué);2010年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(自然科學(xué)版);2002年05期
2 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報;2005年07期
3 高軍,陳錫先;無監(jiān)督的動態(tài)分詞方法[J];北京郵電大學(xué)學(xué)報;1997年04期
4 文庭孝;情報檢索中漢語語詞自動切分研究[J];圖書與情報;2001年02期
5 李育嫦;搜索引擎中完善關(guān)鍵詞檢索功能的探索[J];圖書與情報;2003年05期
6 文庭孝;漢語自動分詞研究進展[J];圖書與情報;2005年05期
7 何嘉;陳琳;;基于神經(jīng)網(wǎng)絡(luò)漢語分詞模型的優(yōu)化[J];成都信息工程學(xué)院學(xué)報;2006年06期
8 趙洋;滕桂法;張玉新;何冬梅;;基于Internet的農(nóng)業(yè)信息垂直搜索引擎的設(shè)計[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2009年06期
9 吳祐昕;順風(fēng);;網(wǎng)絡(luò)搜索引擎的發(fā)展趨勢分析[J];當(dāng)代傳播;2007年03期
10 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
2 王進;基于本體的語義信息檢索研究[D];中國科學(xué)技術(shù)大學(xué);2006年
3 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 史鵬輝;專業(yè)服務(wù)網(wǎng)站搜索引擎的設(shè)計與實現(xiàn)[D];大連理工大學(xué);2004年
2 王亮;搜索引擎及其相關(guān)性排序研究[D];武漢大學(xué);2004年
3 黃大鵬;基于語義Web的搜索引擎研究[D];西安理工大學(xué);2004年
4 壽周翔;專業(yè)搜索引擎的研究與設(shè)計[D];浙江大學(xué);2005年
5 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年
6 姚琪;垂直搜索引擎系統(tǒng)的研究與設(shè)計[D];上海交通大學(xué);2008年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時;2003年Z1期
2 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期
3 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年32期
4 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期
5 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期
6 牟思;;基于垂直搜索引擎的學(xué)校網(wǎng)站的研究與建設(shè)[J];中國教育技術(shù)裝備;2011年21期
7 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期
8 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年31期
9 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期
10 宿建光;;指點通:移動垂直搜索的創(chuàng)新者[J];通信世界;2007年03期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;[N];計算機世界;2010年
2 王艷;[N];中國旅游報;2000年
3 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年
4 王靖;[N];人民日報海外版;2000年
5 記者 王滸;[N];中國旅游報;2009年
6 本報記者 王宏;[N];中國計算機報;2001年
7 徐瑾 張玉;[N];人民郵電;2009年
8 本報記者 王曉雁;[N];法制日報;2009年
9 記者 吳德群;[N];深圳特區(qū)報;2009年
10 本報記者 胡鈺;[N];華夏時報;2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年
5 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年
2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2010年
3 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學(xué);2010年
4 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學(xué);2010年
5 周佳慶;實時垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年
6 華大年;手機產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計與開發(fā)[D];武漢理工大學(xué);2011年
7 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];天津師范大學(xué);2011年
8 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年
9 張贏;個性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年
10 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年
本文關(guān)鍵詞:垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號:68403
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/68403.html