天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于偽反饋的有效XML查詢擴(kuò)展

發(fā)布時間:2019-11-19 21:51
【摘要】:偽反饋(pseudo relevance feedback,PRF)一直以來都被認(rèn)為是一種有效的查詢擴(kuò)展技術(shù)。然而傳統(tǒng)的偽反饋容易帶來主題漂移,從而影響檢索性能。如何確定高質(zhì)量的相關(guān)文檔集,以及如何從相關(guān)文檔集中挑選有用的擴(kuò)展詞項(xiàng),是解決偽反饋中查詢主題漂移的兩個重要方面。對此,針對XML(extensible markup language)文檔,提出了一個解決框架:一方面,研究了XML偽反饋文檔查找方法,在充分考慮XML內(nèi)容和結(jié)構(gòu)特征的前提下,提出了基于檢索結(jié)果聚類和兩階段排序模型相結(jié)合的高質(zhì)量XML偽相關(guān)文檔查找技術(shù);另一方面,針對CO(content only)查詢,對詞項(xiàng)擴(kuò)展進(jìn)行了研究,提出了帶結(jié)構(gòu)語義的詞項(xiàng)權(quán)值計(jì)算方法。一系列的相關(guān)實(shí)驗(yàn)數(shù)據(jù)表明,所提的XML偽反饋查詢擴(kuò)展方法能有效地減少查詢主題漂移現(xiàn)象,獲得更好的檢索質(zhì)量。
【圖文】:

性能比較圖,性能比較,擴(kuò)展源


?反而降低。而觀察本文的擴(kuò)展方法,在返回結(jié)果的前10篇和前20篇文檔里,分別只有11和6個查詢主題的準(zhǔn)確率低于擴(kuò)展前,這充分說明了本文的擴(kuò)展方案減少了查詢漂移現(xiàn)象,在Prec@10和Prec@20上性能分別提高了4%和15%,整體的檢索質(zhì)量得到了提高。分析原因,擴(kuò)展源的質(zhì)量至關(guān)重要。傳統(tǒng)偽反饋是選擇初始檢索結(jié)果的前N篇文檔作為擴(kuò)展源,此擴(kuò)展源并非每次都包含有較多的相關(guān)文檔,當(dāng)用戶查詢需求比較模糊的時候,得到的檢索結(jié)果可能會包含有較多的噪音,顯然在此環(huán)境下進(jìn)行查詢詞Fig.1PerformancecomparisononPrec@X圖1Prec@X性能比較圖Fig.2PerformancecomparisononMAP@X圖2MAP@X性能比較圖Fig.3PerformancecomparisononPrec@10圖3性能比較圖(Prec@10)Fig.4PerformancecomparisononPrec@20圖4性能比較圖(Prec@20)1679

性能比較圖,性能比較,擴(kuò)展源


頹?0篇文檔里,分別只有11和6個查詢主題的準(zhǔn)確率低于擴(kuò)展前,這充分說明了本文的擴(kuò)展方案減少了查詢漂移現(xiàn)象,在Prec@10和Prec@20上性能分別提高了4%和15%,整體的檢索質(zhì)量得到了提高。分析原因,擴(kuò)展源的質(zhì)量至關(guān)重要。傳統(tǒng)偽反饋是選擇初始檢索結(jié)果的前N篇文檔作為擴(kuò)展源,此擴(kuò)展源并非每次都包含有較多的相關(guān)文檔,當(dāng)用戶查詢需求比較模糊的時候,,得到的檢索結(jié)果可能會包含有較多的噪音,顯然在此環(huán)境下進(jìn)行查詢詞Fig.1PerformancecomparisononPrec@X圖1Prec@X性能比較圖Fig.2PerformancecomparisononMAP@X圖2MAP@X性能比較圖Fig.3PerformancecomparisononPrec@10圖3性能比較圖(Prec@10)Fig.4PerformancecomparisononPrec@20圖4性能比較圖(Prec@20)1679


本文編號:2563251

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2563251.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶aa523***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com