基于Nutch的就業(yè)垂直搜索引擎研究
發(fā)布時(shí)間:2023-04-20 22:44
針對(duì)通用搜索引擎專(zhuān)業(yè)性不夠、查準(zhǔn)率較低的問(wèn)題,基于Nutch開(kāi)源搜索引擎,采用基于本地詞庫(kù)和動(dòng)態(tài)加載詞庫(kù)的正向迭代最細(xì)粒度切分算法實(shí)現(xiàn)中文分詞;谔卣髟~和元數(shù)據(jù)標(biāo)簽的空間向量模型實(shí)現(xiàn)就業(yè)領(lǐng)域主題相關(guān)性判定,基于MapReduce引入網(wǎng)頁(yè)鏈入鏈接權(quán)重因子和時(shí)間衰減因子改進(jìn)LinkRank排序算法等對(duì)Nutch進(jìn)行二次開(kāi)發(fā),并在網(wǎng)頁(yè)信息抓取和過(guò)濾、就業(yè)信息搜索和特征詞推薦等環(huán)節(jié)引入就業(yè)領(lǐng)域本體信息,采用Java框架技術(shù)對(duì)用戶(hù)查詢(xún)接口進(jìn)行了二次開(kāi)發(fā),提供了如關(guān)鍵字智能提醒、定制爬蟲(chóng)、二次查找、設(shè)定查詢(xún)結(jié)果日期、訂閱查詢(xún)等擴(kuò)展查詢(xún)接口,設(shè)計(jì)并實(shí)現(xiàn)了基于Nutch的就業(yè)垂直搜索引擎。實(shí)驗(yàn)結(jié)果表明,基于Nutch的就業(yè)垂直搜索引擎具有較高的查準(zhǔn)率,可以滿(mǎn)足用戶(hù)專(zhuān)業(yè)檢索的需求。
【文章頁(yè)數(shù)】:5 頁(yè)
【文章目錄】:
0 引言
1 系統(tǒng)框架
2 系統(tǒng)關(guān)鍵技術(shù)
2.1 中文分詞
2.2 主題相關(guān)性判別
2.3 檢索結(jié)果排序
2.3.1 基于MapReduce的LinkRank并行排序算法
2.3.2 網(wǎng)頁(yè)的就業(yè)相關(guān)度計(jì)算
2.3.3改進(jìn)Nutch原有結(jié)果排序
2.4 用戶(hù)查詢(xún)接口擴(kuò)展
2.4.1 關(guān)鍵字智能提醒
2.4.2 定制爬蟲(chóng)
2.4.3 搜索輔助接口
3 測(cè)試與分析
3.1 測(cè)試數(shù)據(jù)準(zhǔn)備
3.2 測(cè)試及結(jié)果分析
3.2.1 主題相關(guān)性分析
3.2.2 不同搜索引擎的比較
4 結(jié)束語(yǔ)
本文編號(hào):3795305
【文章頁(yè)數(shù)】:5 頁(yè)
【文章目錄】:
0 引言
1 系統(tǒng)框架
2 系統(tǒng)關(guān)鍵技術(shù)
2.1 中文分詞
2.2 主題相關(guān)性判別
2.3 檢索結(jié)果排序
2.3.1 基于MapReduce的LinkRank并行排序算法
2.3.2 網(wǎng)頁(yè)的就業(yè)相關(guān)度計(jì)算
2.3.3改進(jìn)Nutch原有結(jié)果排序
2.4 用戶(hù)查詢(xún)接口擴(kuò)展
2.4.1 關(guān)鍵字智能提醒
2.4.2 定制爬蟲(chóng)
2.4.3 搜索輔助接口
3 測(cè)試與分析
3.1 測(cè)試數(shù)據(jù)準(zhǔn)備
3.2 測(cè)試及結(jié)果分析
3.2.1 主題相關(guān)性分析
3.2.2 不同搜索引擎的比較
4 結(jié)束語(yǔ)
本文編號(hào):3795305
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3795305.html
最近更新
教材專(zhuān)著