基于Web的DCI垂直搜索引擎的研究與設(shè)計
[Abstract]:In order to solve the problem that users can quickly and accurately search digital works information on the Internet, a vertical search engine for digital works is designed and analyzed. Firstly, based on the Heritrix crawler technology, the digital works on the Internet are collected and the text information is extracted, and the extracted data is saved to the local area. Then, based on the full-text retrieval toolkit of Lucene, the local data are processed such as word segmentation, inverted index, index retrieval and improved correlation ranking. Finally, a universal scalable DCI vertical search engine is designed and implemented. The experimental results show that the search engine improves the accuracy of web page information extraction and the efficiency of data retrieval to a great extent.
【作者單位】: 北方工業(yè)大學信息工程學院;
【基金】:國家科技部支撐計劃課題基金項目(2012BAH04f03)
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前5條
1 趙珂;逯鵬;李永強;;基于Lucene的搜索引擎設(shè)計與實現(xiàn)[J];計算機工程;2011年16期
2 王歡;孫瑞志;;基于領(lǐng)域本體和Lucene的語義檢索系統(tǒng)研究[J];計算機應(yīng)用;2010年06期
3 孫承杰,關(guān)毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學報;2004年05期
4 蔣一峰;王華;張玉紅;黃少林;;基于Lucene的語義檢索系統(tǒng)的設(shè)計和實現(xiàn)[J];計算機工程與設(shè)計;2008年20期
5 付強;;基于Lucene的高校圖書垂直搜索引擎的研究與實現(xiàn)[J];太原師范學院學報(自然科學版);2011年04期
【共引文獻】
相關(guān)期刊論文 前10條
1 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實現(xiàn)[J];兵工學報;2009年S1期
2 毛布;謝汶;;一種基于博弈論的死鎖檢測機制研究[J];成都電子機械高等專科學校學報;2010年04期
3 王楠;;一種實現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學學報;2010年03期
4 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學學報;2009年04期
5 趙文;唐建雄;高慶鋒;;基于統(tǒng)計的中文網(wǎng)頁正文抽取的研究[J];電腦知識與技術(shù);2008年01期
6 王強;戰(zhàn)忠麗;張鳳君;;基于語義分組向量空間模型的Web新聞檢索算法[J];電子科技;2011年04期
7 楊元峰;趙敏涯;廖黎莉;;基于Lucene的客服知識庫系統(tǒng)結(jié)構(gòu)設(shè)計[J];福建電腦;2012年01期
8 胡瑜;王立志;;基于HTML結(jié)構(gòu)特征的網(wǎng)頁信息提取[J];遼寧石油化工大學學報;2009年03期
9 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學學報(自然科學版);2009年01期
10 諶超;強保華;石龍;;基于Hadoop MapReduce的大規(guī)模數(shù)據(jù)索引構(gòu)建與集群性能分析[J];桂林電子科技大學學報;2012年04期
相關(guān)會議論文 前4條
1 胡飛;;一種Web頁面的主題區(qū)域搜索方法[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年
2 王春元;張韜;;一種獲取網(wǎng)頁主要中文信息的方法[A];全國計算機安全學術(shù)交流會論文集(第二十四卷)[C];2009年
3 時達明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學生計算語言學研討會論文集[C];2006年
4 蒲宇達;關(guān)毅;王強;;基于數(shù)據(jù)挖掘思想的網(wǎng)頁正文抽取方法的研究[A];第三屆學生計算語言學研討會論文集[C];2006年
相關(guān)博士學位論文 前1條
1 王春元;公共網(wǎng)絡(luò)信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學;2009年
相關(guān)碩士學位論文 前10條
1 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學;2010年
2 孟祥燕;問答對自動獲取的研究[D];昆明理工大學;2008年
3 呂楠;話題追蹤與演化分析技術(shù)研究[D];解放軍信息工程大學;2009年
4 許世明;中文網(wǎng)頁分類技術(shù)研究及預(yù)分類算法實現(xiàn)[D];西安電子科技大學;2009年
5 陳晶;基于網(wǎng)頁的信息抽取的研究[D];西安工業(yè)大學;2011年
6 王偉;搜索引擎智能化技術(shù)中若干關(guān)鍵問題的研究與實現(xiàn)[D];河北科技大學;2011年
7 高永勝;基于樹形結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抽取模式研究及應(yīng)用[D];大連理工大學;2011年
8 董錦霞;基于菱形思維的概念檢索模型研究[D];大連理工大學;2011年
9 張瑞雪;基于DOM樹的網(wǎng)頁相似度研究與應(yīng)用[D];大連理工大學;2011年
10 王偉;基于網(wǎng)絡(luò)信息的熱點事件發(fā)現(xiàn)與分析研究[D];華東師范大學;2011年
【二級參考文獻】
相關(guān)期刊論文 前10條
1 馬暉男;吳江寧;潘東華;;一種基于同義詞詞典的模糊查詢擴展方法[J];大連理工大學學報;2007年03期
2 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實例的Web信息抽取[J];河北大學學報(自然科學版);2001年04期
3 郭立力;趙春江;;高效FTP搜索引擎的設(shè)計與實現(xiàn)[J];華南理工大學學報(自然科學版);2009年01期
4 張承立;陳劍波;齊開悅;;基于語義網(wǎng)的語義相似度算法改進[J];計算機工程與應(yīng)用;2006年17期
5 張宇;王映輝;張翔南;;基于Spring的MVC框架設(shè)計與實現(xiàn)[J];計算機工程;2010年04期
6 黃果;周竹榮;周亭;;基于領(lǐng)域本體的語義相似度計算研究[J];計算機工程與科學;2007年05期
7 王琦;張戈;何婧;;基于Lucene與Heritrix的圖書垂直搜索引擎的研究與實現(xiàn)[J];計算機時代;2010年02期
8 高軍 ,王騰蛟 ,楊冬青 ,唐世渭;基于Ontology的Web內(nèi)容二階段半自動提取方法[J];計算機學報;2004年03期
9 宋睿華,馬少平,陳剛,李景陽;一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法[J];中文信息學報;2003年04期
10 鄭世明;任在安;宋自林;邵榮明;戴榮榮;潘明聰;;基于Ontology的語義查詢分析研究[J];南京師范大學學報(工程技術(shù)版);2008年04期
相關(guān)碩士學位論文 前3條
1 楊永毅;基于Lucene的二手汽車交易信息垂直搜索引擎的研究與實現(xiàn)[D];重慶大學;2009年
2 王冬坡;基于Lucene的主題搜索引擎的研究與實現(xiàn)[D];河北科技大學;2010年
3 陳航哲;基于Lucene的垂直搜索引擎的研究與應(yīng)用[D];暨南大學;2010年
【相似文獻】
相關(guān)期刊論文 前10條
1 周純;;垂直搜索引擎技術(shù)進展[J];知識經(jīng)濟;2011年09期
2 彭玉容;楊捧;高媛;;農(nóng)業(yè)搜索引擎的發(fā)展現(xiàn)狀及關(guān)鍵技術(shù)研究[J];安徽農(nóng)業(yè)科學;2010年20期
3 郭興;柯鵬;徐媛;李宗榮;;論垂直搜索引擎中的信息抽取技術(shù)的選用[J];醫(yī)學信息;2006年12期
4 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術(shù);2009年02期
5 郝愛峰;;網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)方法研究[J];山西電子技術(shù);2008年04期
6 劉金亮;吳芳;孟海江;;智能化垂直搜索系統(tǒng)的構(gòu)建[J];電腦知識與技術(shù);2010年02期
7 任小燕;康小軍;;面向教育資源的垂直搜索引擎應(yīng)用研究[J];軟件導刊;2007年13期
8 王寧;毛垣生;;水平和垂直搜索引擎的比較與應(yīng)用實踐[J];圖書館工作與研究;2009年12期
9 胡亮;袁芳;齊蕓蕓;;農(nóng)業(yè)垂直搜索引擎信息抽取的研究[J];計算機工程與設(shè)計;2009年05期
10 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期
相關(guān)會議論文 前10條
1 楊存榜;蘇春曉;郭素;陳紅素;陳久森;于瑞珍;;用于ICF實驗的大型數(shù)據(jù)庫系統(tǒng)的開發(fā)[A];第六屆全國激光科學技術(shù)青年學術(shù)交流會論文集[C];2001年
2 張云鵬;;Proficy Historian在邯鋼集團全廠實時生產(chǎn)信息系統(tǒng)中的應(yīng)用[A];全國煉鋼連鑄過程自動化技術(shù)交流會論文集[C];2006年
3 朱曄;;對電能量采集與計費系統(tǒng)的探討[A];2007云南電力技術(shù)論壇論文集[C];2007年
4 張建新;蔡冬梅;;“數(shù)字城市”基礎(chǔ)數(shù)據(jù)獲取技術(shù)的探討[A];2009全國測繪科技信息交流會暨首屆測繪博客征文頒獎?wù)撐募痆C];2009年
5 馮立;劉思齊;錢曉龍;;基于NetLinx架構(gòu)的企業(yè)控制信息集成[A];中國儀器儀表學會第五屆青年學術(shù)會議論文集[C];2003年
6 賈根蓮;王開因;;企業(yè)數(shù)據(jù)中心建設(shè)過程中的關(guān)鍵問題[A];全國第十五屆計算機科學與技術(shù)應(yīng)用學術(shù)會議論文集[C];2003年
7 陳恩平;;基于VB的數(shù)據(jù)采集軟件設(shè)計及關(guān)鍵問題研究[A];《制造業(yè)自動化與網(wǎng)絡(luò)化制造》學術(shù)交流會論文集[C];2004年
8 廖之平;;土地利用數(shù)據(jù)庫建設(shè)的方法探索[A];第十五屆全國遙感技術(shù)學術(shù)交流會論文摘要集[C];2005年
9 路長城;李德明;;基于MapGIS的城市地形圖數(shù)據(jù)庫的建設(shè)[A];'2005數(shù)字江蘇論壇——電子政務(wù)與地理信息技術(shù)論文專輯[C];2005年
10 路長城;李德明;;基于MapGIS的城市地形圖數(shù)據(jù)庫的建設(shè)[A];'2005數(shù)字江蘇論壇電子政務(wù)與地理信息技術(shù)論文專輯[C];2005年
相關(guān)重要報紙文章 前10條
1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學技術(shù)情報研究所 周峻松;用開源軟件建垂直搜索引擎[N];計算機世界;2010年
2 ;IBM IM獨特的數(shù)據(jù)采集工具[N];中國計算機報;2002年
3 單群一;用友發(fā)布新稅務(wù)查賬軟件[N];中國稅務(wù)報;2007年
4 廖軍邋傅作良 王繼曄;陜西建立數(shù)據(jù)采集報送長效機制[N];中國交通報;2008年
5 北京合眾思壯科技股份有限公司 彭玉群;移動GIS蓄勢待發(fā)[N];計算機世界;2008年
6 張濤;應(yīng)用推動軟件技術(shù)創(chuàng)新[N];計算機世界;2007年
7 于翔;打造實用主義ITSM[N];網(wǎng)絡(luò)世界;2007年
8 清華大學計算機系智能技術(shù)與系統(tǒng)國家重點實驗室 張敏 金奕江;尋“寶”有術(shù)[N];計算機世界;2003年
9 王東華邋蔣捷;芬蘭國家地圖數(shù)據(jù)庫建設(shè)與更新[N];中國測繪報;2007年
10 林麗雅邋王慧;營銷系統(tǒng)和GIS系統(tǒng)實現(xiàn)數(shù)據(jù)共享[N];國家電網(wǎng)報;2007年
相關(guān)博士學位論文 前10條
1 王曄;垂直搜索引擎若干問題研究[D];復旦大學;2011年
2 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學技術(shù)大學;2012年
3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學技術(shù)大學;2012年
4 馬英杰;基于3GS的核勘查數(shù)據(jù)采集及處理系統(tǒng)研究[D];成都理工大學;2010年
5 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學;2011年
6 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學;2012年
7 張奇;信息抽取中實體關(guān)系識別研究[D];中國科學技術(shù)大學;2010年
8 李學鋒;礦山企業(yè)數(shù)據(jù)倉庫的應(yīng)用研究[D];昆明理工大學;2005年
9 楊武;基于多源數(shù)據(jù)的土地利用變化研究[D];同濟大學;2006年
10 滕偉;面向Web信息集成的Web信息抽取中若干關(guān)鍵問題的研究[D];上海交通大學;2007年
相關(guān)碩士學位論文 前10條
1 肖亮;垂直搜索引擎的研究與實現(xiàn)[D];北京交通大學;2008年
2 李文澤;個性化垂直搜索引擎研究[D];河南大學;2007年
3 任軍;基于網(wǎng)頁結(jié)構(gòu)特征的垂直搜索引擎研究與實現(xiàn)[D];上海交通大學;2008年
4 江娟;垂直搜索引擎數(shù)據(jù)分析技術(shù)的研究與實現(xiàn)[D];華北電力大學(北京);2008年
5 金嬋鳴;垂直搜索引擎系統(tǒng)的研究[D];武漢理工大學;2010年
6 張贏;個性化多媒體資源垂直搜索引擎技術(shù)研究[D];華東交通大學;2009年
7 周兵;基于分布式精準采集的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2011年
8 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學;2009年
9 金璐鈺;基于框架的事件抽取關(guān)鍵技術(shù)研究[D];蘇州大學;2010年
10 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2004年
,本文編號:2395630
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2395630.html