基于教育領域的垂直搜索引擎的研究與設計
本文關鍵詞:基于教育領域的垂直搜索引擎的研究與設計,由筆耕文化傳播整理發(fā)布。
《蘭州交通大學》 2014年
基于教育領域的垂直搜索引擎的研究與設計
張錦
【摘要】:隨著互聯(lián)網技術的急速發(fā)展,網上的信息資源也呈現(xiàn)出爆炸式增長,這種信息的增長體現(xiàn)在互聯(lián)網的各個領域,尤其是在教育領域;ヂ(lián)網為廣大網民提供了豐富的網上學習資源以及教學資源。我們可以很方便的對這些資源進行訪問和下載,但是,如何準確即時的找到自己所需要的教育資源也成為當今社會所面臨的一個重要問題。 傳統(tǒng)的搜索引擎查詢結果數(shù)量巨大,用戶很難在其中找到自己所需要的專業(yè)性很強的資源。隨著垂直搜索引擎的出現(xiàn),這種情況得到了較大的改善。垂直搜索引擎是相對通用搜索引擎的查詢不準確、深度不夠等局限性提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。 本文在研究了大量的搜索引擎技術的情況下,采用Lucene作為底層包,,開發(fā)出了一個基于教育領域的垂直搜索引擎, 論文首先對垂直搜索引擎的產生背景及國內外的發(fā)展狀況作了簡單的介紹,詳細闡述了垂直搜索引擎的主要組成部分,包括主題爬蟲、網頁資源預處理、中文分詞等。并且對Lucene核心模塊進行了介紹,包括索引模塊和檢索模塊。 然后,通過對搜索引擎關鍵技術的研究,分析并設計了垂直搜索引擎的系統(tǒng)結構及實現(xiàn)框圖。 論文的核心內容主要是對主題爬蟲進行了研究,現(xiàn)有的主題爬蟲算法較著名的是Fish-search和Shark-search算法。通過對其優(yōu)缺點的分析研究,改進了爬蟲算法。并實現(xiàn)了基于Fish-search算法改進的爬蟲算法,和基于VSM主題匹配的算法,提高了爬取的效率同時也提高了抓取網頁的主題相關性。將抓取的網頁進行除噪預處理,來獲得網頁的文本內容 論文最后開發(fā)出了基于教育領域的垂直搜索引擎。利用Lucene主要實現(xiàn)了索引模塊和檢索模塊,創(chuàng)建索引文件的過程中采用了一種新的索引方法,即只對關鍵詞和標題內容進行索引。經過實驗驗證,這種創(chuàng)建索引的方法,能夠在很大程度上降低索引文件的大小并且提高了檢索的效率。
【關鍵詞】:
【學位授予單位】:蘭州交通大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據庫 前10條
1 劉群,張華平,俞鴻魁,程學旗;基于層疊隱馬模型的漢語詞法分析[J];計算機研究與發(fā)展;2004年08期
2 費洪曉,康松林,朱小娟,謝文彪;基于詞頻統(tǒng)計的中文分詞的研究[J];計算機工程與應用;2005年07期
3 鄧攀;劉功申;;一種高效的倒排索引存儲結構[J];計算機工程與應用;2008年31期
4 李國和;劉光勝;秦波波;吳衛(wèi)江;李洪奇;;綜合最大匹配和歧義檢測的中文分詞粗分方法[J];計算機工程與應用;2012年14期
5 張成洪;古曉洪;白延紅;;Web數(shù)據抽取技術研究進展[J];計算機科學;2004年02期
6 王晶;戎玫;張廣泉;祝義;;基于概率模型檢測的Web服務組合驗證[J];計算機科學;2012年01期
7 宋宇;孟祥增;;基于改進Fish-search算法的多媒體檢索[J];計算機工程;2008年11期
8 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學報;2002年05期
9 王振華;;基于Hopfield神經網絡的數(shù)據分類[J];計算機應用;2011年S2期
10 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應用[J];計算機應用與軟件;2009年01期
【共引文獻】
中國期刊全文數(shù)據庫 前10條
1 朱學芳;馮曦曦;;面向農業(yè)主題搜索引擎設計與實現(xiàn)[J];安徽農業(yè)科學;2011年35期
2 白曉梅;張福利;;校園網中文搜索引擎系統(tǒng)的設計[J];鞍山師范學院學報;2006年06期
3 耿新青;陶鳳梅;黃宏光;;一種基于近鄰匹配的中文分詞算法Jlppeccz[J];鞍山師范學院學報;2010年04期
4 于江德;王希杰;;詞位標注漢語分詞技術詳解[J];安陽師范學院學報;2010年05期
5 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術[J];北京交通大學學報;2009年05期
6 廉捷;劉云;;網絡輿情中的信息預處理與自動摘要算法[J];北京交通大學學報;2010年05期
7 劉椿年,宋霞;基于Boosting的半結構化信息抽取[J];北京工業(yè)大學學報;2005年02期
8 馬志強;周長勝;丁維;楊娜;;校園網搜索引擎的研究與實現(xiàn)[J];北京機械工業(yè)學院學報;2007年01期
9 王茹,宋瀚濤,陸玉昌;基于樹自動機的網頁數(shù)據抽取[J];北京理工大學學報;2004年09期
10 馬應龍;張世鵬;劉紹華;金蓓弘;;用于分布式語義查詢的語義逼近方法[J];北京郵電大學學報;2008年06期
中國重要會議論文全文數(shù)據庫 前10條
1 陳紅兵;;基于XML的電子政務信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
2 于江德;王希杰;樊孝忠;;漢語詞法分析中上文和下文孰重孰輕[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 余驍捷;邵陽;吳及;王俠;;基于SVM和MMR融和的自動文摘方法[A];第十一屆全國人機語音通訊學術會議論文集(一)[C];2011年
4 李紀華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學術研討會論文集[C];2010年
5 翟偉斌;許榕生;;基于Internet的CIS研究[A];第十三屆全國核電子學與核探測技術學術年會論文集(下冊)[C];2006年
6 李明宙;羅艷;王宗義;;Lucene全文檢索引擎的研究及應用[A];廣西計算機學會2010年學術年會論文集[C];2010年
7 劉秉權;王喻紅;葛冬梅;李佳;;基于結構樹解析的網頁正文抽取方法[A];黑龍江省計算機學會2007年學術交流年會論文集[C];2007年
8 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學會第六屆學術年會論文集(上)[C];2009年
9 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學會第六屆學術年會論文集(中)[C];2009年
10 梁勇;張文;;網絡輿情采集系統(tǒng)的設計[A];2011年全國通信安全學術會議論文集[C];2011年
中國博士學位論文全文數(shù)據庫 前10條
1 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學;2010年
2 鄺礫;基于接口和行為語義的Web服務發(fā)現(xiàn)與適配研究[D];浙江大學;2009年
3 陳珂銳;基于本體演化的Deep Web數(shù)據抽取與注釋[D];吉林大學;2011年
4 楊抒;基于WEB的林產品信息資源整合方法研究[D];北京林業(yè)大學;2011年
5 吳承榮;骨干通道上的網絡論壇通信信息監(jiān)測和分析的關鍵技術研究[D];復旦大學;2011年
6 祝希路;基于QoS的可信Web服務關鍵技術研究[D];北京郵電大學;2011年
7 劉朝濤;中文問答系統(tǒng)中的句型理論及其應用研究[D];重慶大學;2010年
8 龍華;定義問答檢索關鍵技術研究[D];重慶大學;2010年
9 王輝;面向互聯(lián)網的Web服務基礎設施構建和應用[D];天津大學;2010年
10 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網絡文本挖掘技術研究[D];國防科學技術大學;2011年
中國碩士學位論文全文數(shù)據庫 前10條
1 樊敬川;Deep Web數(shù)據庫的選擇研究[D];河北大學;2009年
2 孫嶺;一種基于前綴表達式的Web信息抽取方法的關鍵問題的實現(xiàn)[D];山東科技大學;2010年
3 馮海瑛;《萬歷野獲編》分詞理論與實踐[D];廣西師范學院;2010年
4 張燕麗;基于Winnow算法和CAPTCHA的垃圾短信過濾研究[D];鄭州大學;2010年
5 雷斌;基于Java技術的智能化搜索引擎的研究與設計[D];哈爾濱工程大學;2010年
6 于洪霞;基于SVM的中文垃圾郵件過濾[D];哈爾濱工程大學;2009年
7 劉國峰;數(shù)據模板匹配研究及在社保審計中的應用[D];哈爾濱工程大學;2010年
8 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學;2010年
9 孔勝;文本資源的知識抽取研究[D];大連理工大學;2010年
10 程波波;基于文本的茶學本體學習方法研究[D];安徽農業(yè)大學;2010年
【二級參考文獻】
中國期刊全文數(shù)據庫 前10條
1 吳祐昕;順風;;網絡搜索引擎的發(fā)展趨勢分析[J];當代傳播;2007年03期
2 劉春輝;金順福;劉國華;李穎;;基于優(yōu)化最大匹配與統(tǒng)計結合的漢語分詞方法[J];燕山大學學報;2009年02期
3 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當代語言學;2001年01期
4 沈艷,郭兵,古天祥;粒子群優(yōu)化算法及其與遺傳算法的比較[J];電子科技大學學報;2005年05期
5 儲荷婷;國際互聯(lián)網檢索工具:特點、比較和發(fā)展方向[J];大學圖書館學報;1997年03期
6 林惠民,張文輝;模型檢測:理論、方法與應用[J];電子學報;2002年S1期
7 彭波,李曉明;搜索引擎倒排文件的一種分塊組織技術[J];電子學報;2005年02期
8 張長勝;孫吉貴;歐陽丹彤;;一種自適應離散粒子群算法及其應用研究[J];電子學報;2009年02期
9 黃建蓮;中國搜索引擎服務市場的現(xiàn)狀及發(fā)展[J];華北科技學院學報;2005年03期
10 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
中國重要會議論文全文數(shù)據庫 前1條
1 高山;張艷;徐波;宗成慶;韓兆兵;;基于三元統(tǒng)計模型的漢語分詞及標注一體化研究[A];自然語言理解與機器翻譯——全國第六屆計算語言學聯(lián)合學術會議論文集[C];2001年
中國碩士學位論文全文數(shù)據庫 前2條
1 郭琰;元搜索引擎的關鍵技術研究及系統(tǒng)實現(xiàn)[D];南京理工大學;2002年
2 宋迪;基于用戶偏好的搜索引擎的指標分析與評價[D];哈爾濱工業(yè)大學;2007年
【相似文獻】
中國期刊全文數(shù)據庫 前10條
1 鄭凱明;李義杰;;垂直搜索引擎及其應用價值[J];信息技術;2008年04期
2 許鑫;黃仲清;;垂直搜索引擎應用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術;2009年02期
3 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農業(yè)網絡信息;2009年11期
4 祝奕;;垂直搜索引擎的構建與應用[J];信息與電腦(理論版);2010年01期
5 張美芳;張迎春;;淺議垂直搜索引擎服務市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期
6 焦龍;;垂直搜索引擎在旅游企業(yè)中應用的探索[J];商場現(xiàn)代化;2010年08期
7 趙宏中;李亞;;垂直搜索引擎應用研究[J];現(xiàn)代商貿工業(yè);2010年04期
8 陳高維;鄧天權;曾云磊;王維國;張龍;;基于垂直搜索引擎的旅游線路評價模型的設計[J];科技創(chuàng)新導報;2010年18期
9 劉小強;;二手轉讓及房產租售垂直搜索引擎的設計與實現(xiàn)[J];三門峽職業(yè)技術學院學報;2010年03期
10 鄭凱明;;垂直搜索引擎應用研究[J];赤峰學院學報(自然科學版);2011年02期
中國重要會議論文全文數(shù)據庫 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學會、河北省計算機學會、河北省自動化學會、河北省人工智能學會、河北省計算機輔助設計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學術年會論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設計與實現(xiàn)[A];第26屆中國數(shù)據庫學術會議論文集(B輯)[C];2009年
4 毛華揚;劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年
中國重要報紙全文數(shù)據庫 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;[N];中國經營報;2006年
2 王艷;[N];中國旅游報;2000年
3 王靖;[N];人民日報海外版;2000年
4 楊國民;[N];經濟日報;2007年
5 本報記者 王曉雁;[N];法制日報;2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術情報研究所 周峻松;[N];計算機世界;2010年
7 中新;[N];經理日報;2008年
8 源訊 編譯;[N];計算機世界;2006年
9 賽迪網 方剛;[N];中國計算機報;2000年
10 ;[N];中國貿易報;2007年
中國博士學位論文全文數(shù)據庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
2 吳羽;面向時間敏感對象的垂直搜索引擎關鍵技術研究[D];浙江大學;2011年
3 胡宜敏;農業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術大學;2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
5 王桂紅;農產品市場價格web信息分析方法研究[D];沈陽農業(yè)大學;2013年
中國碩士學位論文全文數(shù)據庫 前10條
1 海濤;垂直搜索引擎數(shù)據采集技術的研究與實現(xiàn)[D];華北電力大學(北京);2008年
2 崔詩遠;基于垂直搜索引擎的旅行社網絡營銷[D];青島大學;2009年
3 翟曉玲;面向學科的基礎教育資源垂直搜索引擎的研究與實現(xiàn)[D];東北師范大學;2009年
4 王嘉杰;面向博客領域的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2009年
5 劉明君;垂直搜索引擎?zhèn)鞑W特征及應用研究[D];華中科技大學;2008年
6 黎斌;可擴展分布式垂直搜索引擎設計與實現(xiàn)研究[D];國防科學技術大學;2008年
7 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質大學(北京);2010年
8 石占偉;垃圾頁面檢測及其在垂直搜索引擎中的應用[D];燕山大學;2010年
9 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學;2010年
10 陳向東;寵物用品垂直搜索引擎研究與設計[D];西北農林科技大學;2010年
本文關鍵詞:基于教育領域的垂直搜索引擎的研究與設計,由筆耕文化傳播整理發(fā)布。
本文編號:52039
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/52039.html