空間文本數(shù)據(jù)的查詢處理技術研究
本文關鍵詞:空間文本數(shù)據(jù)的查詢處理技術研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著GPS技術的快速發(fā)展和移動智能設備的日益普及,出現(xiàn)了越來越多的基于地理位置的服務(LBS)。這些服務產(chǎn)生了大量的空間文本數(shù)據(jù),既包括空間地理位置,又包括文本描述。這給傳統(tǒng)的以文本型數(shù)據(jù)為主的查詢處理技術帶來了極大的挑戰(zhàn),主要體現(xiàn)在兩個方面:(1)查詢效果的好壞通常與底層數(shù)據(jù)的質量密切相關,針對空間文本數(shù)據(jù),如何有效的從多個數(shù)據(jù)源獲取數(shù)據(jù)并去除其中冗余的部分。(2)在處理各類查詢請求時,如何充分的利用空間坐標和文本關鍵詞來優(yōu)化查詢算法,提高搜索性能。本文的主要研究內容及貢獻點如下:1.空間文本數(shù)據(jù)的融合:傳統(tǒng)的數(shù)據(jù)融合算法只針對純空間數(shù)據(jù)或者純文本數(shù)據(jù)。為了解決這個問題,本文提出一種基于混合前綴簽名的融合技術。一方面,針對空間部分,設計最小包圍矩形(MBR)前綴剪枝算法,利用空間相似性閾值,為每條數(shù)據(jù)選取特定的子區(qū)域來產(chǎn)生空間簽名,由于該區(qū)域遠遠小于原有MBR,因此能夠更快速的定位到候選數(shù)據(jù);另一方面,設計混合前綴簽名算法,通過合并非頻繁的關鍵詞來增加索引利用率,并根據(jù)關鍵詞的地理分布特點產(chǎn)生不同的空間劃分,最后自適應的結合空間和文本前綴來產(chǎn)生混合簽名,加強剪枝能力,快速的找到在空間和文本上都非常相似的數(shù)據(jù)。2.空間文本數(shù)據(jù)的Top-k檢索:傳統(tǒng)的Top-k檢索算法沒有針對文本部分進行優(yōu)化。為了解決該問題,本文提出一種基于劃分的檢索算法。它利用TA的思想,增量的找到當前空間相似性最高或文本相似性最高的數(shù)據(jù),并動態(tài)的合并它們得到候選結果。在建立索引時,按照空間區(qū)域和文本相似性區(qū)間將數(shù)據(jù)劃分成桶,以桶為整體估計數(shù)據(jù)的相似性,在每個桶內部搜索Top-k結果并進行合并。通過這種方式,優(yōu)先定位到相似度高的桶,避免訪問大量的無用數(shù)據(jù)。3.空間文本數(shù)據(jù)的Top-k近似檢索:傳統(tǒng)的Top-k近似檢索算法不能同時支持“字符級別的容錯”和“Top-k”這兩種需求。針對該問題,本文設計一種混合型層次索引結構(HLtree)。它能夠根據(jù)數(shù)據(jù)分布動態(tài)的選擇路標,并利用路標來指引數(shù)據(jù)進行層次劃分,保證同一劃分內的數(shù)據(jù)在空間和文本上彼此接近。為了支持多關鍵詞檢索,算法增量的找到與每個查詢關鍵詞相近的數(shù)據(jù),并按照一定策略進行合并。此外,為了避免依次計算數(shù)據(jù)與路標之間的相似性,算法設計了字符刪除策略,利用索引結構來產(chǎn)生數(shù)據(jù)劃分,加速建立索引和查詢處理的過程。
【關鍵詞】:空間文本數(shù)據(jù) 數(shù)據(jù)融合 數(shù)據(jù)檢索 基于地理位置的服務
【學位授予單位】:清華大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要3-4
- Abstract4-9
- 第1章 緒論9-17
- 1.1 選題背景與研究動機9-14
- 1.1.1 空間文本數(shù)據(jù)的融合10-12
- 1.1.2 空間文本數(shù)據(jù)的Top-k檢索12-13
- 1.1.3 空間文本數(shù)據(jù)的Top-k近似檢索13-14
- 1.2 主要研究內容與貢獻14-16
- 1.3 章節(jié)安排16-17
- 第2章 空間文本數(shù)據(jù)的融合17-57
- 2.1 預備知識17-23
- 2.1.1 問題定義17-19
- 2.1.2 相關工作19-20
- 2.1.3 基準方法20-23
- 2.2 基于前綴過濾的解決方法23-31
- 2.2.1 基于過濾驗證的基本框架23-24
- 2.2.2 空間簽名與文本簽名的選擇24-26
- 2.2.3 空間簽名與文本簽名的組織26-29
- 2.2.4 排序策略29-30
- 2.2.5 復雜度分析30-31
- 2.3 基于MBR前綴的解決方法31-38
- 2.3.1 前綴MBR的產(chǎn)生策略31-35
- 2.3.2 基于MBR前綴的融合算法35-38
- 2.4 基于混合前綴的解決方法38-44
- 2.4.1 混合前綴的產(chǎn)生策略和融合算法38-42
- 2.4.2 格子粒度的選擇42-43
- 2.4.3 R ? S型數(shù)據(jù)融合與其他近似性函數(shù)43-44
- 2.5 實驗結果44-55
- 2.5.1 實驗設置44-45
- 2.5.2 簽名模式的評測45-47
- 2.5.3 MBR前綴技術的評測47-50
- 2.5.4 混合前綴技術的評測50-51
- 2.5.5 排序策略的評測51-52
- 2.5.6 可擴展性的評測52-53
- 2.5.7 與現(xiàn)有算法比較53-54
- 2.5.8 R-S型數(shù)據(jù)融合效果的評測54-55
- 2.5.9 各種相似性函數(shù)的評測55
- 2.6 本章小結55-57
- 第3章 空間文本數(shù)據(jù)的Top-k檢索57-77
- 3.1 預備知識57-61
- 3.1.1 問題定義57-59
- 3.1.2 相關工作59-60
- 3.1.3 基準方法60-61
- 3.2 增量式的Top-k檢索算法61-68
- 3.2.1 基本框架61-64
- 3.2.2 增量式的空間最優(yōu)檢索算法64-65
- 3.2.3 增量式的文本最優(yōu)檢索算法65-68
- 3.3 基于劃分的檢索算法68-71
- 3.4 實驗結果71-76
- 3.4.1 實驗設置71
- 3.4.2 對參數(shù)k的評測71-72
- 3.4.3 對參數(shù) α 的評測72-74
- 3.4.4 對查詢關鍵詞數(shù)量的評測74-75
- 3.4.5 對時間和空間可擴展性的評測75-76
- 3.5 本章小結76-77
- 第4章 空間文本數(shù)據(jù)的Top-k近似檢索77-99
- 4.1 預備知識77-82
- 4.1.1 問題定義77-79
- 4.1.2 相關工作79-81
- 4.1.3 基準方法81-82
- 4.2 混合型路標指引樹82-91
- 4.2.1 基本思路82-84
- 4.2.2 HLtree的構建算法84-88
- 4.2.3 HLtree的單關鍵詞檢索算法88-90
- 4.2.4 HLtree的多關鍵詞的檢索算法90-91
- 4.3 路標的選擇策略91-93
- 4.4 實驗結果93-98
- 4.4.1 實驗設置93-95
- 4.4.2 對查詢詞數(shù)量的評測95-96
- 4.4.3 對參數(shù)k的評測96
- 4.4.4 對時間和空間可擴展性的評測96-98
- 4.5 本章小結98-99
- 第5章 總結與展望99-101
- 5.1 論文主要研究工作總結99-100
- 5.2 進一步研究工作及展望100-101
- 參考文獻101-108
- 致謝108-110
- 個人簡歷、在學期間發(fā)表的學術論文與研究成果110-111
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭瑩;;數(shù)據(jù)空間關鍵問題探究[J];軟件導刊;2012年07期
2 厲劍;張紹雄;劉俊杰;李成柱;;大數(shù)據(jù)引發(fā)信息時代新變革[J];大眾科技;2013年12期
3 李斌;;大數(shù)據(jù)及其發(fā)展趨勢研究[J];廣西教育;2013年35期
4 張曉軍;孟祥武;;數(shù)字化周期[J];計算機科學;2002年05期
5 崔晨;吳揚揚;;基于活動的數(shù)據(jù)空間數(shù)據(jù)關系發(fā)現(xiàn)[J];微型機與應用;2011年11期
6 賈云得;;微型數(shù)字存貯遙測裝置數(shù)據(jù)預存貯方法[J];遙測遙控;1989年06期
7 靳小龍;王元卓;程學旗;;大數(shù)據(jù)的研究體系與現(xiàn)狀[J];信息通信技術;2013年06期
8 朝樂門;;數(shù)據(jù)空間及其信息資源管理視角研究[J];情報理論與實踐;2013年11期
9 黃一凡;;合并分區(qū) 數(shù)據(jù)無損有妙招[J];電腦愛好者;2011年23期
10 葛敬軍;胡長軍;劉歆;李揚;劉震宇;;面向領域科學數(shù)據(jù)的虛擬數(shù)據(jù)空間共享模型[J];小型微型計算機系統(tǒng);2014年03期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 李鴻奎;陳洪艷;;大連市房地產(chǎn)基礎地理信息系統(tǒng)的設計和建設[A];中國地理信息系統(tǒng)協(xié)會第九屆年會論文集[C];2005年
2 董彥磊;申德榮;寇月;聶鐵錚;;數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關聯(lián)關系發(fā)現(xiàn)模型的研究[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
3 龐怡;許洪光;張志敏;;針對海量科技信息的存儲研究[A];信息時代——科技情報研究學術論文集(第三輯)[C];2008年
4 季承;;Oracle利用HWM高水標記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
5 季承;;Oracle利用HWM高水標記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
中國重要報紙全文數(shù)據(jù)庫 前6條
1 牛澤亞;用戶如何在數(shù)據(jù)空間里“被遺忘”?[N];人民郵電;2014年
2 風格;指引大數(shù)據(jù)未來發(fā)展方向的九大真理[N];中華讀書報;2013年
3 錄音整理 本報記者 劉文強 楊豐源;創(chuàng)新驅動,奮力奔向大數(shù)據(jù)時代[N];貴陽日報;2014年
4 中國人民大學信息學院 李玉坤;云計算與數(shù)據(jù)空間[N];中國計算機報;2008年
5 整理 本報記者 蘇丹丹;把握大數(shù)據(jù)機遇 推動文化產(chǎn)業(yè)跨越發(fā)展[N];中國文化報;2013年
6 安徽國稅局 趙為民;稅務綜合數(shù)據(jù)平臺的設想[N];計算機世界;2007年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 李曉娜;面向SaaS應用的多租戶數(shù)據(jù)放置機制研究[D];山東大學;2015年
2 張德兵;基于機器學習的數(shù)據(jù)補全、標注和檢索若干問題研究[D];浙江大學;2015年
3 劉思彤;空間文本數(shù)據(jù)的查詢處理技術研究[D];清華大學;2015年
4 侯振隆;重力全張量梯度數(shù)據(jù)的并行反演算法研究及應用[D];吉林大學;2016年
5 姜朔;數(shù)據(jù)空間中數(shù)據(jù)集成若干關鍵問題研究[D];東華大學;2014年
6 陳鵬;面向情景感知計算的時空數(shù)據(jù)管理、查詢、分析與相關算法研究[D];華東師范大學;2013年
7 楊丹;數(shù)據(jù)空間中基于語義的實體搜索關鍵技術研究[D];東北大學;2012年
8 王曉蕊;華北克拉通地球化學科學數(shù)據(jù)的管理及應用研究[D];中國地質大學;2008年
9 張曉東;數(shù)字河口平臺建設關鍵技術研究[D];中國海洋大學;2009年
10 汪陳應;XML數(shù)據(jù)編碼與存儲管理關鍵技術研究[D];南開大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 權西瑞;云環(huán)境下數(shù)據(jù)版權保護方法的研究[D];西安建筑科技大學;2015年
2 向兵;中藥顆粒調劑設備中輔助硬件及自動封口機的設計[D];東北師范大學;2015年
3 朱躍龍;公安情報自動分類系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2015年
4 張鵬遠;大數(shù)據(jù)分類存儲及檢索方法研究[D];西安電子科技大學;2014年
5 王夢佳;DOA下數(shù)據(jù)注冊方法的初步研究與實現(xiàn)[D];成都理工大學;2015年
6 陳啟偉;電機狀態(tài)云監(jiān)測系統(tǒng)研究與實現(xiàn)[D];浙江大學;2016年
7 王照清;大數(shù)據(jù)環(huán)境下數(shù)據(jù)查詢優(yōu)化技術應用研究[D];北方工業(yè)大學;2016年
8 賈振美;面向稀疏軌跡數(shù)據(jù)的位置預測方法研究[D];東北大學;2014年
9 崔晨;基于活動的數(shù)據(jù)空間的數(shù)據(jù)關系發(fā)現(xiàn)和數(shù)據(jù)重要性評價[D];華僑大學;2011年
10 童蓉;基于GIS的社區(qū)公共衛(wèi)生信息平臺應用研究[D];上海交通大學;2010年
本文關鍵詞:空間文本數(shù)據(jù)的查詢處理技術研究,,由筆耕文化傳播整理發(fā)布。
本文編號:270375
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/270375.html