基于全文檢索的快速查詢系統(tǒng)研究與實現(xiàn)
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
圖2-1全文檢索架構圖
把檢索器檢索的結果根據(jù)處理器的分詞算法和排序規(guī)則對結果進行排序,把排序后的結果返回給用戶,如圖2-1。圖2-1全文檢索架構圖2.1.1.1爬蟲器爬蟲器是俗稱的蜘蛛程序(Spider),最早是因為互聯(lián)網(wǎng)網(wǎng)站繁瑣雜亂,用戶搜索所需的資料非常困難,蜘蛛程序自動把互聯(lián)網(wǎng)上網(wǎng)站信....
圖2-2遞歸分詞算法流程圖
圖2-2遞歸分詞算法流程圖建立詞表,根據(jù)建立的詞表來查找計算。1)初始化,取短語D12)如果D1不為空,取D1的前M個字放入W3)查找詞表,如果W在詞表中,將w放入D2中,短語D1=D1-W;如果W不在詞表中,則去掉W的最后一個字4)....
圖2-3遞歸分詞算法對比圖
分詞的準確性不高,雖然可以通過遞歸循環(huán)詞庫的方式來解決,但是詞庫里的詞語也非絕對完善。如圖2-3所示。圖2-3遞歸分詞算法對比圖比如說字符串處理機器發(fā)生的故障,在切分過程中可能會出現(xiàn)被切分為:處理機、器、發(fā)生、故障,但是使用逆向的方法卻可以得到有效的切分。可見遞歸分詞算....
圖2-4倒排索引表的建立流程
第二章全文檢索相關技術研究[16]。倒排索引分為兩個部分。(1)第1個部分:由不同索引詞(indexterm)組成的索引表,稱為"詞典(lexicon)[17]。其中保存了各種中文詞匯,以及這些詞匯的一些統(tǒng)計信息(例如出現(xiàn)頻率nDocs),這些統(tǒng)計信息用于各種排名算法(....
本文編號:3907088
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3907088.html