隨著近年來(lái)電子商務(wù)、社會(huì)化網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)以及智能化技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息呈現(xiàn)出爆炸性增長(zhǎng)的態(tài)勢(shì),通用搜索引擎的檢索結(jié)果出現(xiàn)出多、雜、亂的現(xiàn)象。并且用戶(hù)對(duì)搜索引擎的要求也不再局限于僅為其提供相關(guān)的網(wǎng)頁(yè),而是期望搜索引擎能夠給出某領(lǐng)域的深層次知識(shí)。然而,世界幾大通用搜索引擎巨頭無(wú)法涵蓋如此眾多領(lǐng)域內(nèi)的搜索市場(chǎng)。因此,在未來(lái)中小型機(jī)構(gòu)提供的領(lǐng)域化、專(zhuān)業(yè)化的垂直搜索服務(wù)必將有很大的應(yīng)用價(jià)值。 中小型金融機(jī)構(gòu)受其經(jīng)濟(jì)能力和搜索方面技術(shù)實(shí)力的限制,其信息檢索服務(wù)還停留在提供存儲(chǔ)在數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化信息的落后階段。因此,如何利用現(xiàn)有的技術(shù)框架提升中小型機(jī)構(gòu)提供高質(zhì)量垂直搜索服務(wù)的能力是亟待解決的問(wèn)題。 本文提出了使用Hadoop開(kāi)源分布式存儲(chǔ)計(jì)算平臺(tái)基于Nutch插件機(jī)制構(gòu)建中小型機(jī)構(gòu)垂直搜索引擎的技術(shù)方案。本文詳細(xì)介紹了Hadoop平臺(tái)相關(guān)技術(shù)的原理和優(yōu)勢(shì),對(duì)Nutch插件機(jī)制進(jìn)行了著重研究,分析了目前常見(jiàn)的領(lǐng)域聚焦算法和常見(jiàn)的中文分詞組件的特點(diǎn),介紹了常見(jiàn)的網(wǎng)頁(yè)特征詞提取算法。設(shè)計(jì)并實(shí)現(xiàn)了基于Nutch插件機(jī)制的金融領(lǐng)域聚焦爬蟲(chóng)和離線的關(guān)鍵詞相關(guān)詞語(yǔ)發(fā)現(xiàn)模塊。利用3臺(tái)PC機(jī)搭建了一個(gè)完整的能提供金融領(lǐng)域信息檢索服務(wù)的微型搜索引擎。實(shí)驗(yàn)結(jié)果證明,該方案具備一定的可行性和實(shí)際的應(yīng)用價(jià)值。
【學(xué)位單位】:山東財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2014
【中圖分類(lèi)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳智;;基于搜索引擎的用戶(hù)網(wǎng)絡(luò)信息資源組織[J];合肥師范學(xué)院學(xué)報(bào);2008年03期
2 周宏宇;張政;;中文分詞技術(shù)綜述[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2010年02期
3 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
4 陳麗君;;聚焦爬蟲(chóng)常見(jiàn)算法分析[J];電腦知識(shí)與技術(shù);2008年S1期
5 楊堅(jiān)爭(zhēng);李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
6 楊志偉;王鑫;;基于本體的氣象領(lǐng)域聚焦爬蟲(chóng)[J];中國(guó)管理信息化;2011年04期
7 夏天;;Nutch的插件機(jī)制分析[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
8 張丹;;中文分詞算法綜述[J];黑龍江科技信息;2012年08期
9 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期
10 周立柱,林玲;聚焦爬蟲(chóng)技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
相關(guān)碩士學(xué)位論文 前1條
1 范晨熙;基于Hadoop的搜索引擎的研究與應(yīng)用[D];浙江理工大學(xué);2013年
本文編號(hào):
2820709
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2820709.html