基于Lucene數(shù)碼產(chǎn)品垂直搜索引擎系統(tǒng)設(shè)計與實現(xiàn)
發(fā)布時間:2021-11-22 03:54
隨著互聯(lián)網(wǎng)上信息日新月異的爆炸式增長,如何獲取更加準(zhǔn)確、更加詳細、更加深層的專業(yè)資源,成為對搜索引擎技術(shù)提出更高的要求。因此,面向?qū)I(yè)主題的垂直搜索引擎系統(tǒng)應(yīng)運而生;與此同時,數(shù)碼產(chǎn)品為豐富人們的生活注入新的血液,而網(wǎng)上團購數(shù)碼產(chǎn)品也成了當(dāng)下流行的消費方式。在如此大市場與技術(shù)結(jié)合的研究背景下,運用了多個垂直搜索相關(guān)的技術(shù)相結(jié)合,將國內(nèi)互聯(lián)網(wǎng)上知名的數(shù)碼產(chǎn)品網(wǎng)站中的數(shù)碼產(chǎn)品信息內(nèi)容作為采集資源對象,在開源的全文檢索工具軟件包Lucene的平臺上,研究和實現(xiàn)了對數(shù)碼產(chǎn)品信息具有專業(yè)化搜索功能的搜索引擎。本文除了詳細介紹了垂直搜索引擎的工作原理、以及Lucene核心平臺技術(shù)外,還介紹了包括了3個構(gòu)造搜索引擎系統(tǒng)息息相關(guān)的關(guān)鍵技術(shù)應(yīng)用:包括聚焦爬蟲的工作原理以及Heritrix爬蟲技術(shù),在傳統(tǒng)爬行策略分析下提出基于爬蟲挑食爬行策略進行分析應(yīng)用,在該策略中引入了幾個權(quán)重參數(shù)如鏈接的歡迎度、重要度和最短路徑查找實現(xiàn)算法;介紹了Web網(wǎng)頁信息提取方法步驟,以及常見的方法分類,最后提出基于數(shù)碼產(chǎn)品設(shè)計規(guī)則提取方法的分析,研究中針對主題大型網(wǎng)站5個設(shè)計規(guī)則結(jié)構(gòu)進行分析,并針對這幾個設(shè)計規(guī)則提出內(nèi)容抽取綜...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
Lucene系統(tǒng)的結(jié)構(gòu)組織
圖 2-3 Lucene 索引管理流程圖為了實現(xiàn)上述管理索引的過程,Lucene提供了五個基礎(chǔ)的類,它們分別是DoeumentField,Indexwriter,Analyzer,Directory。下面分別介紹一下這五個類的用途[15]:(l)DoeumentLucene 不對任何物理文件建立索引,而只對 Document 對象建立,因此 Documen對象被稱為 Lucene 的文檔。它是索引器可以直接添加的對象。每個索引可以包含多個不同的文檔,每個文檔又管理了數(shù)目不等的域集合。這里的文檔是一個邏輯概念,是Lucene 索引對索引項的一級管理框架.(2)FieldLucene 的 Field(域)是 Document 對象的基本組成單位。在實際中每個域?qū)?yīng) Field 類的實例來實現(xiàn)。每個域內(nèi)存儲了實際的索引文本數(shù)據(jù),這些文本數(shù)據(jù)在內(nèi)部
圖 3-4 Heritrix 整體架構(gòu)圖體來說,Heritrix可分成三個部分[5]:Web 可管理控制臺 。 可以在界面設(shè)置運行時使用哪個模塊 。 Heritrix 也因為好的管理界面,所以得到了廣泛的應(yīng)用。 Web 管理界面默認運行Heritrix 包自帶的 Java HTTP 服務(wù)器 Jetty 中,但也可以作為 Web 應(yīng)用運在 Tomcat 或 Resin 等 Web 服務(wù)器中。操作者可以通過選擇 Crawler 命令來作控制臺。
【參考文獻】:
期刊論文
[1]基于序列比對的動態(tài)Web信息抽取算法[J]. 趙剛,郭東偉,李丹. 吉林大學(xué)學(xué)報(理學(xué)版). 2010(03)
[2]XML的DOM研究與應(yīng)用[J]. 曹步文,劉先鋒,周忠華. 計算機時代. 2008(02)
[3]Web數(shù)據(jù)抽取技術(shù)研究進展[J]. 張成洪,古曉洪,白延紅. 計算機科學(xué). 2004(02)
[4]搜索引擎Robot技術(shù)實現(xiàn)的原理分析[J]. 洪光宗,王皓. 現(xiàn)代圖書情報技術(shù). 2002(01)
[5]智能搜索引擎技術(shù)的研究與發(fā)展[J]. 張曉剛,李明樹. 計算機工程與應(yīng)用. 2001(24)
[6]WWW信息搜索技術(shù)研究[J]. 陳苒,董占球. 計算機工程與應(yīng)用. 2001(14)
碩士論文
[1]垂直搜索引擎技術(shù)研究與應(yīng)用[D]. 劉彤.西安建筑科技大學(xué) 2008
本文編號:3510882
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
Lucene系統(tǒng)的結(jié)構(gòu)組織
圖 2-3 Lucene 索引管理流程圖為了實現(xiàn)上述管理索引的過程,Lucene提供了五個基礎(chǔ)的類,它們分別是DoeumentField,Indexwriter,Analyzer,Directory。下面分別介紹一下這五個類的用途[15]:(l)DoeumentLucene 不對任何物理文件建立索引,而只對 Document 對象建立,因此 Documen對象被稱為 Lucene 的文檔。它是索引器可以直接添加的對象。每個索引可以包含多個不同的文檔,每個文檔又管理了數(shù)目不等的域集合。這里的文檔是一個邏輯概念,是Lucene 索引對索引項的一級管理框架.(2)FieldLucene 的 Field(域)是 Document 對象的基本組成單位。在實際中每個域?qū)?yīng) Field 類的實例來實現(xiàn)。每個域內(nèi)存儲了實際的索引文本數(shù)據(jù),這些文本數(shù)據(jù)在內(nèi)部
圖 3-4 Heritrix 整體架構(gòu)圖體來說,Heritrix可分成三個部分[5]:Web 可管理控制臺 。 可以在界面設(shè)置運行時使用哪個模塊 。 Heritrix 也因為好的管理界面,所以得到了廣泛的應(yīng)用。 Web 管理界面默認運行Heritrix 包自帶的 Java HTTP 服務(wù)器 Jetty 中,但也可以作為 Web 應(yīng)用運在 Tomcat 或 Resin 等 Web 服務(wù)器中。操作者可以通過選擇 Crawler 命令來作控制臺。
【參考文獻】:
期刊論文
[1]基于序列比對的動態(tài)Web信息抽取算法[J]. 趙剛,郭東偉,李丹. 吉林大學(xué)學(xué)報(理學(xué)版). 2010(03)
[2]XML的DOM研究與應(yīng)用[J]. 曹步文,劉先鋒,周忠華. 計算機時代. 2008(02)
[3]Web數(shù)據(jù)抽取技術(shù)研究進展[J]. 張成洪,古曉洪,白延紅. 計算機科學(xué). 2004(02)
[4]搜索引擎Robot技術(shù)實現(xiàn)的原理分析[J]. 洪光宗,王皓. 現(xiàn)代圖書情報技術(shù). 2002(01)
[5]智能搜索引擎技術(shù)的研究與發(fā)展[J]. 張曉剛,李明樹. 計算機工程與應(yīng)用. 2001(24)
[6]WWW信息搜索技術(shù)研究[J]. 陳苒,董占球. 計算機工程與應(yīng)用. 2001(14)
碩士論文
[1]垂直搜索引擎技術(shù)研究與應(yīng)用[D]. 劉彤.西安建筑科技大學(xué) 2008
本文編號:3510882
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3510882.html
最近更新
教材專著