基于機器學習的數(shù)據(jù)補全、標注和檢索若干問題研究
本文關鍵詞:基于機器學習的數(shù)據(jù)補全、標注和檢索若干問題研究
更多相關文章: 大數(shù)據(jù) 矩陣補全 主動學習 近鄰檢索
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,人們進入了大數(shù)據(jù)時代。在大數(shù)據(jù)時代如何對數(shù)據(jù)進行理解和檢索成為研究人員廣泛關注的問題,在推薦系統(tǒng)、人臉識別、圖像檢索等眾多實際問題中有著廣泛的應用。但是在大數(shù)據(jù)時代,關于數(shù)據(jù)本身,我們還面臨著很多挑戰(zhàn)。第一點,雖然可以很容易的收集到大量數(shù)據(jù),但是由于各方面的原因,真實數(shù)據(jù)經(jīng)常可能是缺失的、不完整的、或者被部分被干擾的,所以如何進行數(shù)據(jù)補全和恢復是一個難題。第二點,數(shù)據(jù)的分類、識別和理解經(jīng)常需要依賴大量的標注數(shù)據(jù),但是大數(shù)據(jù)時代,雖然數(shù)據(jù)總量多,但是大部分數(shù)據(jù)都是沒有標注信息的,而人工標注所有數(shù)據(jù)耗時耗力,因此如何選擇最重要、最有信息含量的那部分數(shù)據(jù)進行標注,從而降低標注成本,也是一個重要的科研問題。第三點,大數(shù)據(jù)時代,如何在對數(shù)據(jù)進行理解的基礎上,進行快速準確的數(shù)據(jù)檢索,精確的了解用戶意圖,并給用戶進行實時反饋,也是一大挑戰(zhàn)。針對這三方面的問題,本論文開展了以下工作:1.為了更好的進行數(shù)據(jù)信息恢復,我們提出了一個基于矩陣截斷式核范數(shù)的矩陣補全算法。本文在傳統(tǒng)的基于矩陣核范數(shù)的矩陣補全思路啟發(fā)下,進一步對矩陣核范數(shù)進行了精細化的修改,將傳統(tǒng)核范數(shù)定義中的最大的r的奇異值去掉,由此定義了新的矩陣截斷式核范數(shù)。通過這種修改,基于矩陣截斷式核范數(shù)的優(yōu)化問題能夠?qū)仃嚨闹鹊膬?yōu)化問題進行更好的近似,從而得到更好的低秩解。同時,我們提出了兩種高效的矩陣截斷式核范數(shù)的優(yōu)化算法,分別對應于硬限制和軟限制條件下目標函數(shù)的求解。而且,該工作給出了一種一般性的替代矩陣核范數(shù)的思路,可以廣泛應用到多種采用矩陣核范數(shù)的問題中。2.我們稱對數(shù)據(jù)進行自動采樣,選擇最有信息量的數(shù)據(jù)進行標注的過程為主動學習。本文在傳統(tǒng)主動學習算法基礎上,進一步利用核空間理論,將基于距離敏感重構的主動學習算法成功其推廣為其非線性形式。傳統(tǒng)基于距離敏感重構的主動學習算法只是簡單的通過線性重構去表示數(shù)據(jù)分布,但在很多的實際問題中,數(shù)據(jù)分布往往非常復雜。而核空間理論表明,可以通過選擇適當?shù)暮撕瘮?shù),將原始數(shù)據(jù)點映射到無窮維再生希爾伯特核空間(RKHS)中。而研究表明,在一個充分高維的空間里,數(shù)據(jù)的復雜非線性結(jié)構更可能被展開成簡單的幾何結(jié)構。因此,我們在核空間中對原始算法進行了重新推導,并提出了一種全新的優(yōu)化算法進行核空間目標函數(shù)的快速求解。實驗表明,通過引入核空間,我們對數(shù)據(jù)幾何信息的刻畫更加準確了,取得了更好的效果。3.為了加速數(shù)據(jù)檢索的速度,提高數(shù)據(jù)檢索的精度,本文提出了一個綜合數(shù)據(jù)結(jié)構和哈希算法的近似最近鄰檢索框架。傳統(tǒng)上,基于數(shù)據(jù)結(jié)構的檢索算法和基于哈希算法的檢索算法是最近鄰檢索中的兩個獨立的研究方向。本文提出的框架可以融合多種數(shù)據(jù)結(jié)構(如K-means樹,K近鄰圖等)和任意哈希算法,實現(xiàn)兩者的優(yōu)勢互補。一方面,我們將數(shù)據(jù)結(jié)構中使用的傳統(tǒng)歐式距離度量改進成漢明距離,大大加速數(shù)據(jù)結(jié)構中每一步搜索的計算速度;另一方面,我們對每個數(shù)據(jù)點的哈希編碼利用數(shù)據(jù)結(jié)構進行了重新組織,因此避免了對哈希編碼進行線性暴力搜索,將線性復雜度降低為對數(shù)復雜度。還有很重要的一點是,傳統(tǒng)哈希算法由于需要線性遍歷,往往只能采用較短的哈希編碼(比如32或者64),這時哈希編碼對真實距離的近似往往精度較低。而在本文的框架中,我們可以支持更長的哈希編碼(如512或者1024),因此能夠得到更高的檢索精度。
【關鍵詞】:大數(shù)據(jù) 矩陣補全 主動學習 近鄰檢索
【學位授予單位】:浙江大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要5-7
- Abstract7-15
- 1 緒論15-29
- 1.1 研究背景15-17
- 1.1.1 數(shù)據(jù)補全15
- 1.1.2 數(shù)據(jù)標注15-16
- 1.1.3 數(shù)據(jù)理解16
- 1.1.4 數(shù)據(jù)檢索16-17
- 1.2 國內(nèi)外相關工作17-25
- 1.2.1 數(shù)據(jù)補全17-19
- 1.2.2 數(shù)據(jù)標注19-20
- 1.2.3 數(shù)據(jù)理解20-24
- 1.2.4 數(shù)據(jù)檢索24-25
- 1.3 本文研究內(nèi)容和主要貢獻25-26
- 1.4 論文各章節(jié)的組織結(jié)構26-29
- 2 基于截斷式核范數(shù)的矩陣補全29-51
- 2.1 研究動機29
- 2.2 截斷式核范數(shù)正則化29-32
- 2.2.1 記號29-30
- 2.2.2 目標函數(shù)推導30-32
- 2.3 優(yōu)化算法32-37
- 2.3.1 基于ADMM的優(yōu)化34-35
- 2.3.2 基于APGL的優(yōu)化35-37
- 2.4 實驗結(jié)果37-50
- 2.4.1 合成數(shù)據(jù)集實驗37-39
- 2.4.2 真實視覺數(shù)據(jù)集的實驗39-44
- 2.4.3 事件矩陣恢復實驗44-50
- 2.5 總結(jié)50-51
- 3 基于核空間非線性距離敏感重構的主動學習51-71
- 3.1 研究動機51-53
- 3.1.1 記號51
- 3.1.2 相關工作51-53
- 3.2 線性距離敏感重構的基本思路53-57
- 3.2.1 目標函數(shù)53-54
- 3.2.2 線性距離敏感重構的求解54-57
- 3.3 貪心序列式選擇算法57-59
- 3.4 核空間非線性主動學習59-63
- 3.5 復雜度分析63
- 3.6 實驗63-69
- 3.6.1 對比方法63-65
- 3.6.2 簡單的合成數(shù)據(jù)集實驗65-66
- 3.6.3 真實數(shù)據(jù)集66-67
- 3.6.4 結(jié)果67-69
- 3.6.5 參數(shù)選擇69
- 3.7 總結(jié)69-71
- 4 基于數(shù)據(jù)結(jié)構和哈希投影的近鄰檢索框架71-85
- 4.1 研究動機71-72
- 4.2 綜合近似近鄰檢索框架72-75
- 4.2.1 算法72-74
- 4.2.2 復雜度分析74-75
- 4.3 實驗75-83
- 4.3.1 比較的算法75-79
- 4.3.2 實驗數(shù)據(jù)集79-80
- 4.3.3 算法評估80
- 4.3.4 參數(shù)選擇80-81
- 4.3.5 結(jié)果81-83
- 4.4 總結(jié)83-85
- 5 總結(jié)與展望85-89
- 5.1 本文工作總結(jié)85-86
- 5.2 未來工作展望86-89
- 參考文獻89-97
- 攻讀博士學位期間主要的研究成果97-99
- 致謝99
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭瑩;;數(shù)據(jù)空間關鍵問題探究[J];軟件導刊;2012年07期
2 厲劍;張紹雄;劉俊杰;李成柱;;大數(shù)據(jù)引發(fā)信息時代新變革[J];大眾科技;2013年12期
3 李斌;;大數(shù)據(jù)及其發(fā)展趨勢研究[J];廣西教育;2013年35期
4 張曉軍;孟祥武;;數(shù)字化周期[J];計算機科學;2002年05期
5 崔晨;吳揚揚;;基于活動的數(shù)據(jù)空間數(shù)據(jù)關系發(fā)現(xiàn)[J];微型機與應用;2011年11期
6 賈云得;;微型數(shù)字存貯遙測裝置數(shù)據(jù)預存貯方法[J];遙測遙控;1989年06期
7 靳小龍;王元卓;程學旗;;大數(shù)據(jù)的研究體系與現(xiàn)狀[J];信息通信技術;2013年06期
8 朝樂門;;數(shù)據(jù)空間及其信息資源管理視角研究[J];情報理論與實踐;2013年11期
9 黃一凡;;合并分區(qū) 數(shù)據(jù)無損有妙招[J];電腦愛好者;2011年23期
10 葛敬軍;胡長軍;劉歆;李揚;劉震宇;;面向領域科學數(shù)據(jù)的虛擬數(shù)據(jù)空間共享模型[J];小型微型計算機系統(tǒng);2014年03期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 李鴻奎;陳洪艷;;大連市房地產(chǎn)基礎地理信息系統(tǒng)的設計和建設[A];中國地理信息系統(tǒng)協(xié)會第九屆年會論文集[C];2005年
2 董彥磊;申德榮;寇月;聶鐵錚;;數(shù)據(jù)空間中數(shù)據(jù)組織模型以及關聯(lián)關系發(fā)現(xiàn)模型的研究[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
3 龐怡;許洪光;張志敏;;針對海量科技信息的存儲研究[A];信息時代——科技情報研究學術論文集(第三輯)[C];2008年
4 季承;;Oracle利用HWM高水標記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
5 季承;;Oracle利用HWM高水標記收縮數(shù)據(jù)空間方案[A];2013電力行業(yè)信息化年會論文集[C];2013年
中國重要報紙全文數(shù)據(jù)庫 前6條
1 牛澤亞;用戶如何在數(shù)據(jù)空間里“被遺忘”?[N];人民郵電;2014年
2 風格;指引大數(shù)據(jù)未來發(fā)展方向的九大真理[N];中華讀書報;2013年
3 錄音整理 本報記者 劉文強 楊豐源;創(chuàng)新驅(qū)動,奮力奔向大數(shù)據(jù)時代[N];貴陽日報;2014年
4 中國人民大學信息學院 李玉坤;云計算與數(shù)據(jù)空間[N];中國計算機報;2008年
5 整理 本報記者 蘇丹丹;把握大數(shù)據(jù)機遇 推動文化產(chǎn)業(yè)跨越發(fā)展[N];中國文化報;2013年
6 安徽國稅局 趙為民;稅務綜合數(shù)據(jù)平臺的設想[N];計算機世界;2007年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 李曉娜;面向SaaS應用的多租戶數(shù)據(jù)放置機制研究[D];山東大學;2015年
2 張德兵;基于機器學習的數(shù)據(jù)補全、標注和檢索若干問題研究[D];浙江大學;2015年
3 姜朔;數(shù)據(jù)空間中數(shù)據(jù)集成若干關鍵問題研究[D];東華大學;2014年
4 陳鵬;面向情景感知計算的時空數(shù)據(jù)管理、查詢、分析與相關算法研究[D];華東師范大學;2013年
5 楊丹;數(shù)據(jù)空間中基于語義的實體搜索關鍵技術研究[D];東北大學;2012年
6 王曉蕊;華北克拉通地球化學科學數(shù)據(jù)的管理及應用研究[D];中國地質(zhì)大學;2008年
7 張曉東;數(shù)字河口平臺建設關鍵技術研究[D];中國海洋大學;2009年
8 汪陳應;XML數(shù)據(jù)編碼與存儲管理關鍵技術研究[D];南開大學;2010年
9 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關鍵技術研究[D];重慶大學;2013年
10 劉江濤;面向多領域用戶模型的自適應網(wǎng)絡制圖服務機制研究[D];武漢大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 權西瑞;云環(huán)境下數(shù)據(jù)版權保護方法的研究[D];西安建筑科技大學;2015年
2 向兵;中藥顆粒調(diào)劑設備中輔助硬件及自動封口機的設計[D];東北師范大學;2015年
3 崔晨;基于活動的數(shù)據(jù)空間的數(shù)據(jù)關系發(fā)現(xiàn)和數(shù)據(jù)重要性評價[D];華僑大學;2011年
4 童蓉;基于GIS的社區(qū)公共衛(wèi)生信息平臺應用研究[D];上海交通大學;2010年
5 劉莉;數(shù)據(jù)空間數(shù)據(jù)的相關性研究[D];華僑大學;2013年
6 趙寧;數(shù)據(jù)空間內(nèi)面向語義的資源組織與管理模型研究[D];東北大學;2009年
7 王洋;數(shù)據(jù)空間中數(shù)據(jù)資源之間關聯(lián)關系發(fā)現(xiàn)與語義查詢研究[D];東北大學;2011年
8 常飛;基于實時數(shù)據(jù)的動態(tài)異常檢測方法研究[D];天津理工大學;2013年
9 朱軍;基于EnCase的電子數(shù)據(jù)取證系統(tǒng)設計與實現(xiàn)[D];天津大學;2011年
10 于維賀;個人數(shù)據(jù)空間中關聯(lián)關系可視化技術的研究與實現(xiàn)[D];東北大學;2010年
,本文編號:916893
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/916893.html