天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于全文檢索的快速查詢系統(tǒng)研究與實現(xiàn)

發(fā)布時間:2024-02-22 18:40
  信息化正在滲透著各行各業(yè),越來越多的非結構化信息不斷出現(xiàn),而如今海量數(shù)據(jù)快速檢索查詢問題已經(jīng)非常突出。從1990年由蒙特利爾大學學生AlanEmtage發(fā)明Arechie開始,搜索引擎的發(fā)展日新月異。當時World Wide Web還未出現(xiàn),Arechie的搜索是通過遍歷FTP網(wǎng)站文件程序,幫助使用者定位到該信息對應的FTP地址和可下載文件,當時的Arechie還不是真正意義的搜索引擎,后來隨著互聯(lián)網(wǎng)的快速發(fā)展,信息按幾何式增長,搜索引擎開始快速發(fā)展起來。 早期的搜索引擎分為目錄式搜索和全文式搜索兩類,搜索整理信息都是通過人工方式和半自動方式,以反饋結果的數(shù)量來衡量檢索結果的好壞,并且檢索結果相關性較差,資料更新緩慢。隨著網(wǎng)絡信息的日益增長,以人工分類整理的搜索引擎已經(jīng)不能滿足用戶搜索信息的要求。第二代搜索引擎開始繁榮發(fā)展,搜索引擎依靠機器抓取,建立在超鏈分析基礎之上,提高了查準率、查全率和檢索速度。 全文檢索是計算機程序通過掃描文章中的每一個關鍵字,對每一個關鍵字建議一個索引,指明該字在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時根據(jù)建立的索引查找,類似于通過字典的檢索字表查字的過程;普通的...

【文章頁數(shù)】:70 頁

【學位級別】:碩士

【部分圖文】:

圖2-1全文檢索架構圖

圖2-1全文檢索架構圖

把檢索器檢索的結果根據(jù)處理器的分詞算法和排序規(guī)則對結果進行排序,把排序后的結果返回給用戶,如圖2-1。圖2-1全文檢索架構圖2.1.1.1爬蟲器爬蟲器是俗稱的蜘蛛程序(Spider),最早是因為互聯(lián)網(wǎng)網(wǎng)站繁瑣雜亂,用戶搜索所需的資料非常困難,蜘蛛程序自動把互聯(lián)網(wǎng)上網(wǎng)站信....


圖2-2遞歸分詞算法流程圖

圖2-2遞歸分詞算法流程圖

圖2-2遞歸分詞算法流程圖建立詞表,根據(jù)建立的詞表來查找計算。1)初始化,取短語D12)如果D1不為空,取D1的前M個字放入W3)查找詞表,如果W在詞表中,將w放入D2中,短語D1=D1-W;如果W不在詞表中,則去掉W的最后一個字4)....


圖2-3遞歸分詞算法對比圖

圖2-3遞歸分詞算法對比圖

分詞的準確性不高,雖然可以通過遞歸循環(huán)詞庫的方式來解決,但是詞庫里的詞語也非絕對完善。如圖2-3所示。圖2-3遞歸分詞算法對比圖比如說字符串處理機器發(fā)生的故障,在切分過程中可能會出現(xiàn)被切分為:處理機、器、發(fā)生、故障,但是使用逆向的方法卻可以得到有效的切分。可見遞歸分詞算....


圖2-4倒排索引表的建立流程

圖2-4倒排索引表的建立流程

第二章全文檢索相關技術研究[16]。倒排索引分為兩個部分。(1)第1個部分:由不同索引詞(indexterm)組成的索引表,稱為"詞典(lexicon)[17]。其中保存了各種中文詞匯,以及這些詞匯的一些統(tǒng)計信息(例如出現(xiàn)頻率nDocs),這些統(tǒng)計信息用于各種排名算法(....



本文編號:3907088

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3907088.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶0dd41***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com