支持檢索結(jié)果多樣化查詢性能預(yù)測(cè)的研究
發(fā)布時(shí)間:2020-07-01 10:19
【摘要】:對(duì)于給定的查詢,搜索引擎首先對(duì)查詢進(jìn)行分析,之后在預(yù)先建好的索引上檢索文檔,并按一種排名算法產(chǎn)生排序的文檔列表。為了評(píng)估返回文檔列表的性能,通常需要人工判斷,非常費(fèi)時(shí),開(kāi)銷(xiāo)很大。如能開(kāi)發(fā)出自動(dòng)的、無(wú)需人工判斷的查詢性能預(yù)測(cè)技術(shù),有較大的實(shí)用意義。對(duì)于搜索引擎而言,提高一些難度較高查詢的性能尤其必要。如能預(yù)測(cè)此類(lèi)查詢,采取必要的補(bǔ)救措施以提升查詢結(jié)果的質(zhì)量,肯定能夠提高用戶的滿意度。因此,設(shè)計(jì)有效的查詢相關(guān)性性能預(yù)測(cè)方法是一項(xiàng)有意義的工作,這也是目前信息檢索領(lǐng)域的一個(gè)研究方向。一個(gè)查詢常含有多個(gè)子意圖,并且對(duì)于同一個(gè)查詢,不同用戶往往有不同的意圖。為了讓更多的用戶獲得較好的搜索體驗(yàn),應(yīng)使靠前的查詢結(jié)果盡量覆蓋更多的子意圖。這一過(guò)程稱為多樣化處理,多樣化后查詢結(jié)果的性能稱為多樣化性能。在檢索多樣化的背景下,為了避免將多樣化性能低的查詢結(jié)果返回給用戶,搜索引擎需要預(yù)測(cè)查詢結(jié)果的多樣化性能,因此本文對(duì)查詢多樣化性能預(yù)測(cè)進(jìn)行了研究。據(jù)我們所知,目前文獻(xiàn)中還沒(méi)有涉及這方面的研究。本文主要在以下幾個(gè)方面進(jìn)行了研究工作:(1)對(duì)于查詢相關(guān)性性能的預(yù)測(cè),從預(yù)測(cè)查詢困難度類(lèi)別(困難、一般、或容易查詢)的角度入手,提出了一個(gè)基于支持向量機(jī)對(duì)查詢的困難度進(jìn)行分類(lèi)的方法。實(shí)驗(yàn)結(jié)果顯示該方法的預(yù)測(cè)效果良好,特別在困難類(lèi)別查詢的預(yù)測(cè)上,有效性較高。(2)對(duì)于查詢多樣化性能的預(yù)測(cè),提出了5個(gè)算法。并采用TREC Web Track2010-2011多樣性任務(wù)中提交的結(jié)果檢驗(yàn)了算法的性能,結(jié)果顯示預(yù)測(cè)算法有一定的有效性。(3)分析子查詢檢索結(jié)果的不同獲取方式對(duì)多樣化預(yù)測(cè)算法的影響。因?yàn)樘岢龅亩鄻踊A(yù)測(cè)算法,預(yù)測(cè)查詢多樣化性能時(shí)需分析子查詢檢索結(jié)果信息,而該結(jié)果除了如上一實(shí)驗(yàn)從外部資源獲取,還可直接從檢索結(jié)果多樣化產(chǎn)生的中間結(jié)果獲取。實(shí)驗(yàn)結(jié)果表明,提出的預(yù)測(cè)算法在性能上依然好于傳統(tǒng)預(yù)測(cè)算法。
【學(xué)位授予單位】:江蘇大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.3
本文編號(hào):2736633
【學(xué)位授予單位】:江蘇大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 郎皓;王斌;李錦濤;丁凡;;文本檢索的查詢性能預(yù)測(cè)[J];軟件學(xué)報(bào);2008年02期
本文編號(hào):2736633
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2736633.html
最近更新
教材專著