天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Lucene數(shù)碼產(chǎn)品垂直搜索引擎系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間:2021-11-22 03:54
  隨著互聯(lián)網(wǎng)上信息日新月異的爆炸式增長,如何獲取更加準(zhǔn)確、更加詳細、更加深層的專業(yè)資源,成為對搜索引擎技術(shù)提出更高的要求。因此,面向?qū)I(yè)主題的垂直搜索引擎系統(tǒng)應(yīng)運而生;與此同時,數(shù)碼產(chǎn)品為豐富人們的生活注入新的血液,而網(wǎng)上團購數(shù)碼產(chǎn)品也成了當(dāng)下流行的消費方式。在如此大市場與技術(shù)結(jié)合的研究背景下,運用了多個垂直搜索相關(guān)的技術(shù)相結(jié)合,將國內(nèi)互聯(lián)網(wǎng)上知名的數(shù)碼產(chǎn)品網(wǎng)站中的數(shù)碼產(chǎn)品信息內(nèi)容作為采集資源對象,在開源的全文檢索工具軟件包Lucene的平臺上,研究和實現(xiàn)了對數(shù)碼產(chǎn)品信息具有專業(yè)化搜索功能的搜索引擎。本文除了詳細介紹了垂直搜索引擎的工作原理、以及Lucene核心平臺技術(shù)外,還介紹了包括了3個構(gòu)造搜索引擎系統(tǒng)息息相關(guān)的關(guān)鍵技術(shù)應(yīng)用:包括聚焦爬蟲的工作原理以及Heritrix爬蟲技術(shù),在傳統(tǒng)爬行策略分析下提出基于爬蟲挑食爬行策略進行分析應(yīng)用,在該策略中引入了幾個權(quán)重參數(shù)如鏈接的歡迎度、重要度和最短路徑查找實現(xiàn)算法;介紹了Web網(wǎng)頁信息提取方法步驟,以及常見的方法分類,最后提出基于數(shù)碼產(chǎn)品設(shè)計規(guī)則提取方法的分析,研究中針對主題大型網(wǎng)站5個設(shè)計規(guī)則結(jié)構(gòu)進行分析,并針對這幾個設(shè)計規(guī)則提出內(nèi)容抽取綜... 

【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:69 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于Lucene數(shù)碼產(chǎn)品垂直搜索引擎系統(tǒng)設(shè)計與實現(xiàn)


Lucene系統(tǒng)的結(jié)構(gòu)組織

管理流程圖,管理流程圖,索引


圖 2-3 Lucene 索引管理流程圖為了實現(xiàn)上述管理索引的過程,Lucene提供了五個基礎(chǔ)的類,它們分別是DoeumentField,Indexwriter,Analyzer,Directory。下面分別介紹一下這五個類的用途[15]:(l)DoeumentLucene 不對任何物理文件建立索引,而只對 Document 對象建立,因此 Documen對象被稱為 Lucene 的文檔。它是索引器可以直接添加的對象。每個索引可以包含多個不同的文檔,每個文檔又管理了數(shù)目不等的域集合。這里的文檔是一個邏輯概念,是Lucene 索引對索引項的一級管理框架.(2)FieldLucene 的 Field(域)是 Document 對象的基本組成單位。在實際中每個域?qū)?yīng) Field 類的實例來實現(xiàn)。每個域內(nèi)存儲了實際的索引文本數(shù)據(jù),這些文本數(shù)據(jù)在內(nèi)部

管理界面,控制臺,服務(wù)器,操作者


圖 3-4 Heritrix 整體架構(gòu)圖體來說,Heritrix可分成三個部分[5]:Web 可管理控制臺 。 可以在界面設(shè)置運行時使用哪個模塊 。 Heritrix 也因為好的管理界面,所以得到了廣泛的應(yīng)用。 Web 管理界面默認運行Heritrix 包自帶的 Java HTTP 服務(wù)器 Jetty 中,但也可以作為 Web 應(yīng)用運在 Tomcat 或 Resin 等 Web 服務(wù)器中。操作者可以通過選擇 Crawler 命令來作控制臺。

【參考文獻】:
期刊論文
[1]基于序列比對的動態(tài)Web信息抽取算法[J]. 趙剛,郭東偉,李丹.  吉林大學(xué)學(xué)報(理學(xué)版). 2010(03)
[2]XML的DOM研究與應(yīng)用[J]. 曹步文,劉先鋒,周忠華.  計算機時代. 2008(02)
[3]Web數(shù)據(jù)抽取技術(shù)研究進展[J]. 張成洪,古曉洪,白延紅.  計算機科學(xué). 2004(02)
[4]搜索引擎Robot技術(shù)實現(xiàn)的原理分析[J]. 洪光宗,王皓.  現(xiàn)代圖書情報技術(shù). 2002(01)
[5]智能搜索引擎技術(shù)的研究與發(fā)展[J]. 張曉剛,李明樹.  計算機工程與應(yīng)用. 2001(24)
[6]WWW信息搜索技術(shù)研究[J]. 陳苒,董占球.  計算機工程與應(yīng)用. 2001(14)

碩士論文
[1]垂直搜索引擎技術(shù)研究與應(yīng)用[D]. 劉彤.西安建筑科技大學(xué) 2008



本文編號:3510882

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3510882.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5c47a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com