融合詞性與位置信息改進(jìn)的Lucene排序算法
發(fā)布時(shí)間:2021-12-18 03:11
文檔檢索的相關(guān)性是依據(jù)用戶的搜索需求對(duì)搜索結(jié)果的一種符合用戶期望的排名。為了提高用戶對(duì)檢索系統(tǒng)的滿意度,考慮到查詢與文檔大多由名詞和動(dòng)詞組成,而且在不同上下文中詞性可以起到語義消岐的作用;另外,考慮到文檔的不同字段具有不同的重要程度,因此詞位置加權(quán)將有效改進(jìn)檢索系統(tǒng)的性能。由于默認(rèn)的Lucene排序算法未考慮文檔不同字段、查詢?cè)~詞性和詞性分布對(duì)檢索相關(guān)性排名的影響,因此在Lucene排序算法的基礎(chǔ)上,提出一種融合詞性與位置信息的改進(jìn)算法。通過對(duì)比實(shí)驗(yàn)分析,該改進(jìn)算法能夠有效提升檢索系統(tǒng)的性能,相比默認(rèn)的Lucene排名算法,準(zhǔn)確率、召回率與F值都有不同程度的提升。
【文章來源】:電腦知識(shí)與技術(shù). 2019,15(17)
【文章頁數(shù)】:4 頁
【部分圖文】:
Lucene算法改進(jìn)前后準(zhǔn)確率對(duì)比本欄目責(zé)任編輯:謝媛媛
本欄目責(zé)任編輯:謝媛媛軟件設(shè)計(jì)開發(fā)第15卷第17期(2019年6月)ComputerKnowledgeandTechnology電腦知識(shí)與技術(shù)圖2Lucene算法改進(jìn)前后召回率對(duì)比圖3Lucene算法改進(jìn)前后F值對(duì)比實(shí)驗(yàn)結(jié)果分析:如圖1-3所示,Lucene算法在改進(jìn)后,相比改進(jìn)前準(zhǔn)確率、召回率與F值都有不同程度的提高。改進(jìn)后算法的性能在基于關(guān)鍵字和組合人名與關(guān)鍵字查詢上面表現(xiàn)很好,準(zhǔn)確率、召回率、F值的提升空間都很大。但是對(duì)于基于人名的查詢上三種評(píng)價(jià)指標(biāo)的上升幅度較小,這里考慮是分詞的影響。4總結(jié)與展望本文通過對(duì)Lucene默認(rèn)評(píng)分算法進(jìn)行分析,針對(duì)默認(rèn)評(píng)分算法存在的不足進(jìn)行改進(jìn)。改進(jìn)策略主要分為兩個(gè)方面,將詞性信息作為負(fù)載添加到Lucene默認(rèn)算法的公式中;另外分析查詢字段的詞性分布,基于此為不同字段添加權(quán)重改進(jìn)默認(rèn)Lucene排序算法;考慮查詢?cè)~出現(xiàn)在文檔的不同位置重要性的差別,改進(jìn)Lucene默認(rèn)評(píng)分算法。實(shí)驗(yàn)結(jié)果表明,與Lucene默認(rèn)排序算法相比改進(jìn)后的排序算法的準(zhǔn)確率、召回率和F值均有不同程度的提升。當(dāng)然還存在一些缺點(diǎn),例如負(fù)載信息的添加可能導(dǎo)致搜索引擎中存儲(chǔ)數(shù)據(jù)增加;另外每次查詢時(shí)需要先進(jìn)行詞性分析,可能導(dǎo)致搜索實(shí)時(shí)性下降。下一步的工作就是優(yōu)化上述問題,以及研究不同的詞性分析方法,進(jìn)一步提升檢索的相關(guān)性,以及研究如何減少檢索系統(tǒng)對(duì)分詞的依賴性。參考文獻(xiàn):[1]CooperWS.GettingbeyondBoole.[J].InformationProcessing&Management,1988,24(3):243-248.[2]WuHC,LukRWP,WongKF,etal.InterpretingTF-IDFtermweightsasmakingrelevancedecisions[J].ACMTransactionsonInformationSystems,2008,26(3).[3]RobertsonS,ZaragozaH.Theprobab
【參考文獻(xiàn)】:
期刊論文
[1]融合位置相關(guān)和概率排序的Lucene排序算法改進(jìn)[J]. 胡博,蔣宗禮. 計(jì)算機(jī)科學(xué). 2016(09)
[2]詞性對(duì)中英文文本聚類的影響研究[J]. 韓普,王東波,劉艷云,蘇新寧. 中文信息學(xué)報(bào). 2013(02)
[3]詞性標(biāo)注對(duì)信息檢索系統(tǒng)性能的影響[J]. 蘇祺,昝紅英,胡景賀,項(xiàng)錕. 中文信息學(xué)報(bào). 2005(02)
碩士論文
[1]基于Lucene的垂直搜索引擎研究與實(shí)現(xiàn)[D]. 胡博.北京工業(yè)大學(xué) 2016
[2]基于Lucene的搜索引擎優(yōu)化[D]. 聞崢.北京交通大學(xué) 2011
[3]詞性在漢語科技文獻(xiàn)檢索中的作用與影響[D]. 程彬彬.南京農(nóng)業(yè)大學(xué) 2008
本文編號(hào):3541509
【文章來源】:電腦知識(shí)與技術(shù). 2019,15(17)
【文章頁數(shù)】:4 頁
【部分圖文】:
Lucene算法改進(jìn)前后準(zhǔn)確率對(duì)比本欄目責(zé)任編輯:謝媛媛
本欄目責(zé)任編輯:謝媛媛軟件設(shè)計(jì)開發(fā)第15卷第17期(2019年6月)ComputerKnowledgeandTechnology電腦知識(shí)與技術(shù)圖2Lucene算法改進(jìn)前后召回率對(duì)比圖3Lucene算法改進(jìn)前后F值對(duì)比實(shí)驗(yàn)結(jié)果分析:如圖1-3所示,Lucene算法在改進(jìn)后,相比改進(jìn)前準(zhǔn)確率、召回率與F值都有不同程度的提高。改進(jìn)后算法的性能在基于關(guān)鍵字和組合人名與關(guān)鍵字查詢上面表現(xiàn)很好,準(zhǔn)確率、召回率、F值的提升空間都很大。但是對(duì)于基于人名的查詢上三種評(píng)價(jià)指標(biāo)的上升幅度較小,這里考慮是分詞的影響。4總結(jié)與展望本文通過對(duì)Lucene默認(rèn)評(píng)分算法進(jìn)行分析,針對(duì)默認(rèn)評(píng)分算法存在的不足進(jìn)行改進(jìn)。改進(jìn)策略主要分為兩個(gè)方面,將詞性信息作為負(fù)載添加到Lucene默認(rèn)算法的公式中;另外分析查詢字段的詞性分布,基于此為不同字段添加權(quán)重改進(jìn)默認(rèn)Lucene排序算法;考慮查詢?cè)~出現(xiàn)在文檔的不同位置重要性的差別,改進(jìn)Lucene默認(rèn)評(píng)分算法。實(shí)驗(yàn)結(jié)果表明,與Lucene默認(rèn)排序算法相比改進(jìn)后的排序算法的準(zhǔn)確率、召回率和F值均有不同程度的提升。當(dāng)然還存在一些缺點(diǎn),例如負(fù)載信息的添加可能導(dǎo)致搜索引擎中存儲(chǔ)數(shù)據(jù)增加;另外每次查詢時(shí)需要先進(jìn)行詞性分析,可能導(dǎo)致搜索實(shí)時(shí)性下降。下一步的工作就是優(yōu)化上述問題,以及研究不同的詞性分析方法,進(jìn)一步提升檢索的相關(guān)性,以及研究如何減少檢索系統(tǒng)對(duì)分詞的依賴性。參考文獻(xiàn):[1]CooperWS.GettingbeyondBoole.[J].InformationProcessing&Management,1988,24(3):243-248.[2]WuHC,LukRWP,WongKF,etal.InterpretingTF-IDFtermweightsasmakingrelevancedecisions[J].ACMTransactionsonInformationSystems,2008,26(3).[3]RobertsonS,ZaragozaH.Theprobab
【參考文獻(xiàn)】:
期刊論文
[1]融合位置相關(guān)和概率排序的Lucene排序算法改進(jìn)[J]. 胡博,蔣宗禮. 計(jì)算機(jī)科學(xué). 2016(09)
[2]詞性對(duì)中英文文本聚類的影響研究[J]. 韓普,王東波,劉艷云,蘇新寧. 中文信息學(xué)報(bào). 2013(02)
[3]詞性標(biāo)注對(duì)信息檢索系統(tǒng)性能的影響[J]. 蘇祺,昝紅英,胡景賀,項(xiàng)錕. 中文信息學(xué)報(bào). 2005(02)
碩士論文
[1]基于Lucene的垂直搜索引擎研究與實(shí)現(xiàn)[D]. 胡博.北京工業(yè)大學(xué) 2016
[2]基于Lucene的搜索引擎優(yōu)化[D]. 聞崢.北京交通大學(xué) 2011
[3]詞性在漢語科技文獻(xiàn)檢索中的作用與影響[D]. 程彬彬.南京農(nóng)業(yè)大學(xué) 2008
本文編號(hào):3541509
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3541509.html
最近更新
教材專著