【摘要】: 由于有著可擴展性和自描述性等特點,XML格式得到了越來越多的采用,其結果是產(chǎn)生了大量以XML格式表示的文檔。隨著XML文檔的大量涌現(xiàn),用戶迫切地需要對XML文檔進行有效地查詢。但是由于XML文檔結構比較松散,往往存在大量的文本(尤其是在以文本為中心的XML文檔中),用戶難以了解XML文檔的結構;而且XML查詢語言比較復雜,用戶亦難以掌握XML查詢語言,這使得以XML數(shù)據(jù)庫技術為代表的XML精確查詢技術不能滿足用戶的需求,在此背景下,信息檢索(IR)方式的XML文檔搜索由于其用戶友好性而受到了越來越多人的注意。 目前,傳統(tǒng)的信息檢索技術比較成熟,但它們主要是針對HTML文檔和文本文檔,沒有考慮XML文檔的結構信息,無法體現(xiàn)XML信息檢索的特點。隨著XML文檔的急劇增長,傳統(tǒng)的搜索引擎已很難滿足用戶需求,XML信息檢索將會成為下一代搜索引擎發(fā)展的重要方向之一,也將在眾多行業(yè)如網(wǎng)絡信息檢索、數(shù)字圖書館等領域得到廣泛的使用。 本文研究了XML文檔搜索中的查詢處理技術,研究范圍從用戶提交XML查詢開始,到產(chǎn)生最終的檢索結果呈現(xiàn)給用戶為止,研究的問題是對于用戶提交的XML查詢,如何有效地產(chǎn)生以合適的形式表示的、有意義的檢索結果。 在處理XML文檔上的關鍵詞或者帶關鍵詞的查詢時,有兩個問題非常重要: (1)XML文檔中存在大量的標簽,使得XML文檔形成一種樹狀結構,于是XML文檔搜索可以在一個更細的粒度上進行,即以子樹或者結點為單位來匹配和返回。有效的XML文檔搜索需要對XML文檔中不同的結點(標簽)有一個清晰的理解,如哪些部分更重要,應該返回哪些部分等。 (2)XML數(shù)據(jù)模型比較復雜,XML文檔中各種信息摻雜在一起,而XML檢索表達式的表達能力相當有限,于是當用過于簡單的表達式來查詢復雜的XML文檔時,往往存在歧義和語義上的模糊。有效的XML文檔搜索需要對XML查詢有一個深入的理解,理解查詢的意圖,這樣才能忠實地反映出XML文檔與查詢之間的相關性。 基于這樣的出發(fā)點,本論文將語義作為核心,基于XML文檔的語義來選擇答案結點,通過查詢語義來反映XML查詢的意圖,通過查詢和結果語義上的相關性來對查詢結果計分,圍繞查詢語義來返回組織良好的檢索結果。我們認為,這種特點抓住了XML信息檢索的關鍵,能夠產(chǎn)生較好的檢索效果。 具體來說,研究了以下內(nèi)容: (1)研究了XML文檔檢索中答案結點的語義推導問題。在對XML文檔進行檢索時,首先遇到的一個問題是,對于用戶給出的查詢,返回什么樣的結點/檢索結果是符合用戶查詢意圖的。針對這一問題,我們分析了理想答案結點應滿足的準則,以及XML文檔中的結構信息、內(nèi)容信息和用戶查詢信息與理想答案結點之間的關系。提出了根據(jù)XML結點類型和用戶查詢信息推導答案結點語義的方法。 (2)針對當前XML文檔搜索系統(tǒng)存在的一些缺陷,研究了XML關鍵詞檢索結果的聚類問題,提出了一個新的聚類方法,該方法的核心是答案結點與關鍵詞查詢的匹配模式。為了實現(xiàn)該聚類方法,我們提出了兩種實現(xiàn)方法:Lazy方法和Eager方法,Eager方法能夠保證產(chǎn)生與Lazy方法相同的聚類結果,但效率更高。還研究了聚類產(chǎn)生的簇的排序以及簇內(nèi)部的檢索結果的排序。 (3)研究了有效的結構與內(nèi)容檢索(Content and Structure, CAS)查詢處理問題,分析了已有的方法面臨的問題,即不夠靈活,有針對性地提出了一種新的CAS查詢處理方法。這種方法以內(nèi)容為主,結構為輔,能夠較好地克服當前技術的一些問題,并特別適用于異構環(huán)境下的XML信息檢索。 (4)設計和開發(fā)了一個XML文檔檢索的原型系統(tǒng)XSense,它支持關鍵詞檢索和結構與內(nèi)容檢索。特別探索了支持XML文檔搜索的索引結構,提出了一種新的XML編碼結梅LCT編碼,圍繞LCT編碼構建了XML結構和內(nèi)容索引,支持各種結構查詢和內(nèi)容查詢。 本文的創(chuàng)新性工作體現(xiàn)在: (1)提出了一種新的XML檢索的答案結點語義。一方面利用結點的語義,要求答案結點必須是有意義的;另一方面分析了XML查詢與查詢匹配之間的關系,要求在答案結點中關鍵詞匹配之間的聯(lián)系必須是有意義的。實驗測試表明,與現(xiàn)有的答案結點語義相比,該方法能夠更好地產(chǎn)生有意義的答案結點。 (2)提出了一種新的面向XML文檔搜索的結果聚類方法,以及高效的實現(xiàn)算法。這種聚類方法的特點是:它可以實現(xiàn)對XML查詢的消歧,將不同語義的檢索結果歸類到不同的簇中;可以大大節(jié)省用戶在瀏覽檢索結果時的無用勞動;有助于用戶更全面地理解檢索結果集,也有助于擴展用戶興趣。大量的實驗結果證明,這種聚類方法是有效的,能夠產(chǎn)生有意義的聚類結果,而且聚類結果對于用戶而言也是有幫助的。從時間效率上看,該聚類方法可以有效地實現(xiàn)。 (3)提出了一種新的XML結構與內(nèi)容檢索的思路,該思路不同于其他工作的特點是:它采取了一種分解——檢索——合并的思路,并且在檢索中,采取以內(nèi)容為主,結構為輔的思路,使得該方法具有很好的靈活性和自適應性。實驗證明,該方法無論是對于同構文檔還是異構文檔都能取得很好的檢索結果。 通過本論文的研究,取得了一些重要的研究成果,這些成果豐富并推動了XML信息檢索的研究,并為后續(xù)研究打下了堅實的基礎。
【學位授予單位】:江西財經(jīng)大學
【學位級別】:博士
【學位授予年份】:2010
【分類號】:G354
【引證文獻】
相關博士學位論文 前2條
1 郭春芬;基于本體的工藝知識管理關鍵技術研究[D];山東科技大學;2011年
2 溫延龍;XML信息檢索關鍵技術研究[D];南開大學;2012年
相關碩士學位論文 前10條
1 郜峰;基于Web的磷化工工藝安全評價系統(tǒng)的設計與實現(xiàn)[D];鄭州大學;2011年
2 高冉;山東省計量科學研究院計量業(yè)務管理系統(tǒng)的設計與實現(xiàn)[D];山東大學;2012年
3 曹陽;廣告業(yè)務管理系統(tǒng)的設計與實現(xiàn)[D];山東大學;2012年
4 張毅;中信銀行客戶債項評價及分類管理系統(tǒng)的設計與實現(xiàn)[D];山東大學;2013年
5 張紅;山東工業(yè)職業(yè)學院運輸配送業(yè)務實訓管理系統(tǒng)的設計與實現(xiàn)[D];山東大學;2013年
6 劉曉天;工藝品訂單生產(chǎn)管理系統(tǒng)的設計與實現(xiàn)[D];山東大學;2013年
7 楊洋;中信銀行法人信貸客戶綜合評價系統(tǒng)的設計與實現(xiàn)[D];山東大學;2013年
8 畢競;東方電子公司人事管理系統(tǒng)的設計與實現(xiàn)[D];山東大學;2013年
9 任永輝;臨沂市安監(jiān)局作業(yè)場所職業(yè)病危害申報與備案系統(tǒng)的設計與實現(xiàn)[D];山東大學;2013年
10 劉偉偉;中醫(yī)藥大學附屬醫(yī)院科教管理系統(tǒng)的設計與實現(xiàn)[D];山東大學;2013年
本文編號:
2719944
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2719944.html