天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用

發(fā)布時間:2016-07-10 10:08

  本文關(guān)鍵詞:垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


《西南交通大學(xué)》 2014年

垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用

張莉  

【摘要】:計算機與網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,促使當(dāng)今社會進入了網(wǎng)絡(luò)信息時代,各個領(lǐng)域的數(shù)據(jù)和信息急劇增多,海量數(shù)據(jù)豐富了人們的生活,同時也增加了用戶對信息的篩選時間。如何從這些雜亂無章的龐大數(shù)據(jù)和強干擾的信息中搜索出有利用價值的信息,這對人類的智能信息處理能力提出了空前的挑戰(zhàn)。在某些專業(yè)領(lǐng)域,通用搜索引擎的信息查全率和查準(zhǔn)率都在不斷下降,而用戶對獲取更加精準(zhǔn)和詳細(xì)的專業(yè)信息的需求卻在不斷增長。 面對這些挑戰(zhàn),誕生了針對特定領(lǐng)域和個性化信息檢索的垂直搜索引擎;贚ucene的垂直搜索引擎己經(jīng)成為當(dāng)今搜索引擎和Web信息挖掘中的一個研究熱點和難點,本文的研究就是以這一熱點和難點技術(shù)而展開的,主要工作如下: 第一,對垂直搜索引擎的相關(guān)研究進展和現(xiàn)狀進行了分析,介紹了垂直搜索引擎的組成并細(xì)述了其工作原理;概述了全文檢索引擎Lucene的相關(guān)技術(shù),包括Lucene框架構(gòu)成、索引技術(shù)和搜索機制等,并對Lucene索引和數(shù)據(jù)庫索引進行了比較。 第二,針對通用分詞系統(tǒng)對領(lǐng)域分詞的效果不理想這一問題,研究了垂直搜索引擎的中文分詞算法;分析圖書領(lǐng)域詞匯的特點,提出了一種帶詞長的雙字哈希詞典機制,并在此機制的基礎(chǔ)上改進了正向最大匹配分詞算法; 第三,針對Lucene中排序技術(shù)只關(guān)注網(wǎng)頁內(nèi)容而忽視網(wǎng)頁本身的重要性這一問題,研究了基于鏈接的網(wǎng)頁排序算法;在考慮圖書數(shù)據(jù)特點和網(wǎng)頁的重要性的基礎(chǔ)上,改進了基于PageRank的Lucene排序算法。 第四,在分詞和排序改進的基礎(chǔ)上,設(shè)計和實現(xiàn)一個面向圖書信息的垂直搜索引擎系統(tǒng),實現(xiàn)的功能主要包括網(wǎng)頁的爬取,網(wǎng)頁信息抽取,索引的建立和查詢界面等;并通過對比驗證了改進分詞和排序后的查詢效果。 最后,總結(jié)了本論文的主要內(nèi)容,指出本系統(tǒng)存在的問題,以及對未來的展望。

【關(guān)鍵詞】:
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:

下載全文 更多同類文獻

CAJ全文下載

(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 吳祐昕;順風(fēng);;網(wǎng)絡(luò)搜索引擎的發(fā)展趨勢分析[J];當(dāng)代傳播;2007年03期

2 許華;劉勇;;中文分詞詞典機制的研究[J];福建電腦;2010年03期

3 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期

4 王瓊;搜索引擎的四大發(fā)展趨勢[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年03期

5 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J];計算機時代;2010年02期

6 張巍,李志蜀;基于PageRank算法的搜索引擎優(yōu)化策略[J];計算機應(yīng)用;2005年07期

7 羅浩;魏祖寬;金在弘;;面向GIS基于專有名詞優(yōu)先的中文分詞方法[J];計算機應(yīng)用;2010年07期

8 曹倩,丁艷,王超,潘金貴;漢語自動分詞研究及其在信息檢索中的應(yīng)用[J];計算機應(yīng)用研究;2004年05期

9 李紹華;高文宇;;搜索引擎頁面排序算法研究綜述[J];計算機應(yīng)用研究;2007年06期

10 楊克特;陳華鈞;;面向特定領(lǐng)域的語義搜索結(jié)果排序算法[J];計算機應(yīng)用與軟件;2011年12期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 史斌;面向語義網(wǎng)的語義搜索引擎關(guān)鍵技術(shù)研究[D];北京工業(yè)大學(xué);2010年

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 董妍汝;;中文分詞技術(shù)在搜索引擎中的應(yīng)用[J];辦公自動化;2010年04期

2 閆淑紅;;基于搜索引擎的信息查詢技術(shù)研究[J];辦公自動化;2011年06期

3 馮哲;孫吉貴;張長勝;王巖;;漢語語音合成的研究進展[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2007年02期

4 何友全;徐小樂;徐澄;欒紅玉;唐華姣;;搜索引擎用戶接口設(shè)計[J];重慶理工大學(xué)學(xué)報(自然科學(xué)版);2010年09期

5 汪洋;;學(xué)術(shù)搜索引擎的現(xiàn)狀及發(fā)展趨勢[J];重慶工學(xué)院學(xué)報(社會科學(xué)版);2008年10期

6 蔡兵;胡敏;;基于Lucene2.0的書目搜索引擎設(shè)計[J];重慶圖情研究;2009年01期

7 閆淑紅;;基于搜索引擎的信息查詢技術(shù)研究[J];電腦開發(fā)與應(yīng)用;2011年07期

8 彭建榮;羅永會;;搜索引擎的基本原理及發(fā)展趨勢[J];電腦知識與技術(shù);2006年02期

9 郭屹;;對中文自動分詞機制的研究和改進[J];電腦知識與技術(shù);2008年07期

10 蔣明亮;李志清;;網(wǎng)站內(nèi)容檢索系統(tǒng)的設(shè)計[J];電腦知識與技術(shù);2009年05期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現(xiàn)[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年

2 栗振江;楊洋;李麗;;智能問答系統(tǒng)[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年

3 張健沛;徐潑;楊靜;;一種輕量級個性化搜索引擎系統(tǒng)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

4 張玉連;張敏;張波;;一種無詞典分詞方法的分析與研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

2 袁方;面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué);2006年

3 顏端武;面向知識服務(wù)的智能推薦系統(tǒng)研究[D];南京理工大學(xué);2007年

4 傅魁;基于Web的本體學(xué)習(xí)研究[D];武漢理工大學(xué);2007年

5 王瑞琴;基于語義處理技術(shù)的信息檢索模型研究[D];浙江大學(xué);2009年

6 陳圣兵;基于商空間理論的海量信息檢索模型的研究[D];安徽大學(xué);2010年

7 黃建年;農(nóng)業(yè)古籍的計算機斷句標(biāo)點與分詞標(biāo)引研究[D];南京農(nóng)業(yè)大學(xué);2009年

8 王鑒全;基于概念圖挖掘的中文文本傾向性研究[D];大連理工大學(xué);2012年

9 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年

10 錢海忠;語義萬維網(wǎng)服務(wù)若干關(guān)鍵技術(shù)的研究[D];南京郵電大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 徐財應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進[D];長春理工大學(xué);2010年

2 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學(xué);2010年

3 劉靖媛;個性搜索引擎中用戶興趣模型研究[D];哈爾濱工程大學(xué);2010年

4 劉文輝;基于鏈接結(jié)構(gòu)的網(wǎng)頁排序算法研究[D];哈爾濱工程大學(xué);2010年

5 汪永偉;搜索引擎中網(wǎng)頁排序算法的研究與實現(xiàn)[D];哈爾濱工程大學(xué);2010年

6 孔勝;文本資源的知識抽取研究[D];大連理工大學(xué);2010年

7 于飛;基于搜索引擎的個性化推薦研究[D];哈爾濱理工大學(xué);2010年

8 鐘鴻鵬;基于時態(tài)信息的網(wǎng)頁排序系統(tǒng)的研究與實現(xiàn)[D];華南理工大學(xué);2010年

9 徐德玉;中文文檔內(nèi)容相似度檢測方法研究[D];長春工業(yè)大學(xué);2010年

10 劉飛榮;SOM算法的改進及其在中文文本聚類的應(yīng)用[D];南昌大學(xué);2010年

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(自然科學(xué)版);2002年05期

2 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報;2005年07期

3 高軍,陳錫先;無監(jiān)督的動態(tài)分詞方法[J];北京郵電大學(xué)學(xué)報;1997年04期

4 文庭孝;情報檢索中漢語語詞自動切分研究[J];圖書與情報;2001年02期

5 李育嫦;搜索引擎中完善關(guān)鍵詞檢索功能的探索[J];圖書與情報;2003年05期

6 文庭孝;漢語自動分詞研究進展[J];圖書與情報;2005年05期

7 何嘉;陳琳;;基于神經(jīng)網(wǎng)絡(luò)漢語分詞模型的優(yōu)化[J];成都信息工程學(xué)院學(xué)報;2006年06期

8 趙洋;滕桂法;張玉新;何冬梅;;基于Internet的農(nóng)業(yè)信息垂直搜索引擎的設(shè)計[J];河北農(nóng)業(yè)大學(xué)學(xué)報;2009年06期

9 吳祐昕;順風(fēng);;網(wǎng)絡(luò)搜索引擎的發(fā)展趨勢分析[J];當(dāng)代傳播;2007年03期

10 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年

2 王進;基于本體的語義信息檢索研究[D];中國科學(xué)技術(shù)大學(xué);2006年

3 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條

1 史鵬輝;專業(yè)服務(wù)網(wǎng)站搜索引擎的設(shè)計與實現(xiàn)[D];大連理工大學(xué);2004年

2 王亮;搜索引擎及其相關(guān)性排序研究[D];武漢大學(xué);2004年

3 黃大鵬;基于語義Web的搜索引擎研究[D];西安理工大學(xué);2004年

4 壽周翔;專業(yè)搜索引擎的研究與設(shè)計[D];浙江大學(xué);2005年

5 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年

6 姚琪;垂直搜索引擎系統(tǒng)的研究與設(shè)計[D];上海交通大學(xué);2008年

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時;2003年Z1期

2 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期

3 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年32期

4 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期

5 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期

6 牟思;;基于垂直搜索引擎的學(xué)校網(wǎng)站的研究與建設(shè)[J];中國教育技術(shù)裝備;2011年21期

7 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期

8 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年31期

9 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期

10 宿建光;;指點通:移動垂直搜索的創(chuàng)新者[J];通信世界;2007年03期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;[N];計算機世界;2010年

2 王艷;[N];中國旅游報;2000年

3 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年

4 王靖;[N];人民日報海外版;2000年

5 記者 王滸;[N];中國旅游報;2009年

6 本報記者 王宏;[N];中國計算機報;2001年

7 徐瑾 張玉;[N];人民郵電;2009年

8 本報記者 王曉雁;[N];法制日報;2009年

9 記者 吳德群;[N];深圳特區(qū)報;2009年

10 本報記者 胡鈺;[N];華夏時報;2009年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年

5 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年

2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2010年

3 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學(xué);2010年

4 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學(xué);2010年

5 周佳慶;實時垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學(xué);2010年

6 華大年;手機產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計與開發(fā)[D];武漢理工大學(xué);2011年

7 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];天津師范大學(xué);2011年

8 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年

9 張贏;個性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學(xué);2009年

10 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年


  本文關(guān)鍵詞:垂直搜索引擎中分詞和排序技術(shù)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。



本文編號:68403

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/68403.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5a5c5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com