圖像單元對比及統(tǒng)計特性顯著化檢測及其應用
第1章 緒 論
1.1 顯著性檢測研究的背景和意義
隨著信息技術的高速發(fā)展,數(shù)字圖像已成為信息的重要載體,是人與人之間溝通的重要媒介。對于人類來說,圖像場景中包含著豐富的語義信息;但對計算機來說,它們則只是由大量多維向量即像素點組成的矩陣,本身并不顯式的包含圖像的內容信息。計算機很難像人一樣從語義層面理解圖像的內容,大量的圖像數(shù)據(jù)會給人工處理造成極大困難,智能分析圖像內容,找到真正有用的信息,已成為計算機視覺領域的一個重要方向。最初,科學家們普遍認為人類通過視覺系統(tǒng)接收周圍環(huán)境的全部圖像信息,在大腦中進行無差別的分析。然而,近些年的研究成果已經(jīng)推翻了這種觀點,其中,Daniel等人從心理學領域充分證明了人類能不斷的從大量的信息中篩選出有用的信息,同時拒絕無用的信息[1]。在視覺領域,大腦能夠在1/10秒內通過眼球獲取視覺場景中重要信息,同時忽略不相關的部分,面對一幅圖像,人們總是能在第一時間把目光集中在自己感興趣的某一個小區(qū)域,這個區(qū)域往往就包含場景的主要信息。人類視覺系統(tǒng)所具有的這種特性被稱為選擇性注意機制,它可以有選擇性的分析圖像信息,調度資源,使得分析的過程更加高效和可靠[2]。因此,面對海量信息,通過計算機一視同仁的處理所有圖像數(shù)據(jù)是不現(xiàn)實,也是完全沒有必要的,如何能準確的找到圖像中“有用的”、“重要的”、“最吸引注意力的”部分進行優(yōu)先處理就凸顯出其重要的意義。
…………..
1.2 顯著性檢測國內外研究現(xiàn)狀
在神經(jīng)生物學、心理學等多種學科的共同啟發(fā)下[8],近年來,視覺顯著性檢測一直得到國內外學者的廣泛關注,以往研究者們已經(jīng)提出了很多顯著性計算模型。目前被廣泛接受的劃分方式是根據(jù)人類視覺系統(tǒng)的機理將視覺顯著性檢測方法分為基于數(shù)據(jù)驅動(Bottom-Up)自底向上的檢測模型和基于高層理解(Top-Down)自頂向下的檢測模型兩大類。自底向上的顯著性檢測方法完全根據(jù)輸入信號來進行計算,所以也被稱為數(shù)據(jù)驅動型方法。這類方法幾乎不需要什么先驗知識,僅僅根據(jù)圖像的底層特征,例如顏色、方向、邊緣、梯度等屬性就能計算出顯著性區(qū)域。研究人員已經(jīng)提出了大量該類方法的計算模型。早期的顯著性檢測模型主要模仿人類視覺系統(tǒng)處理信息的流程,屬于基于生物啟發(fā)式模型。隨著該領域的不斷發(fā)展,基于顯著性的應用越來越廣泛,研究者從實際應用的角度出發(fā)提出了偏重計算的模型,這種模型往往能達到非常優(yōu)秀的效果。自頂向下的顯著性檢測方法往往利用先驗知識分析圖像的顯著性區(qū)域,通常根據(jù)具體的任務內容,設計有針對性的計算策略,這也就決定了該類方法與自底向上的顯著性檢測方法相比,不具有廣泛的適用性。從實現(xiàn)角度來說,先驗知識的獲取需要依靠機器學習訓練大量樣本,從而建立的樣本模型,檢測顯著區(qū)域的位置。為了提高檢測的效果,需要建立盡量準確的樣本模型,但是,精準的樣本模型不僅需要研究人員對目標對象的結構和性質有著深刻的了解,而且需要大量的經(jīng)過人工標注的訓練樣本,這是因為即使是屬于同一類的目標物體,他們的形態(tài)也可能成千上萬。除此之外,機器學習算法的設計也一直是一項相當復雜的工作。
……………
第2章 構造圖像單元結構
2.1 視覺處理單元的引入
數(shù)字圖像處理往往都是以像素作為基本處理單位,一個RGB像素只是一個三維向量,本身包含的信息十分有限,難以分析更深層次的特征。除此之外,圖像的像素數(shù)目往往都十分巨大,比如一副分辨率為300 400的RGB三通道圖像,其像素數(shù)目在十二萬,且每個像素都是一個三維向量,因此,以像素為處理單元往往會給后續(xù)工作帶來很大計算量。以往的顯著性檢測算法中大部分都是以像素為基本計算單位,但若對圖像所有通道的全部像素操作,將會導致計算量巨大,研究者們選擇各種方式降低處理單元的數(shù)量,例如LC方法單獨選擇亮度通道計算圖像顯著性區(qū)域,但是這樣也就拋棄了圖像中的大量有用信息,導致該方法無法有效的處理復雜多變的自然圖像。日常生活中,人們在觀察場景時視覺系統(tǒng)都是以場景中的區(qū)域作為基本單位接收外界的刺激并處理圖像信息,在這一點上與數(shù)字圖像處理并不相同。圖像的區(qū)域包含的信息十分豐富,包括顏色、大小、形狀、位置等等,這為后續(xù)的處理提供了大量可供選擇的特征。顯著性區(qū)域檢測正是在模擬人類視覺系統(tǒng),因此應該與視覺注意機制保持一致性。以往的顯著性檢測算法往往采用多尺度方式模擬這種區(qū)域處理單元。IT方法作為一種較早的顯著性檢測方法,通過在多尺度空間基于多特征計算顯著性圖。IT方法共采用了9級高斯金字塔,首先計算其高斯金字塔序列圖像,在這些序列圖像反映了目標圖在不同尺度下所包含的信息,模擬人類視覺系統(tǒng),在不同尺度下基于不同特征計算顯著性圖,將顯著性檢測結果合并。
…………
2.2 Mean-shift算法在構造圖像單元中的應用
在數(shù)字圖像處理領域中,圖像分割算法能夠在保留圖像信息的基礎上高效的將圖像劃分成為多個非重疊的子區(qū)域,Cheng等人在RC方法中也是采用這種的思想,但RC方法所使用的圖像分割算法是通過圖結構的節(jié)點生長方式來進行圖像分割[34],分割效果一般且計算效率低。但是,基于區(qū)域的顯著性檢測結果很大程度上依賴于圖像分割的效果,因此,為了克服前人算法的缺點,在構造圖像單元的過程中,本文使用一種改進后的自適應Mean-shift圖像分割算法,通過顏色空間多維數(shù)據(jù)樣本的空間分布密度進行分割。將Mean-Shift算法應用到圖像處理領域,在圖像中像素點的空間維數(shù)是(x, y),每個像素點由(r, g, b)三基色構成,在進行圖像分割時,Mean-shift圖像分割算法通過使用一個滑動窗口掃描空間來找到數(shù)據(jù)密度最高的多維數(shù)據(jù)點聚集部分,即數(shù)據(jù)峰值。由于,空間向量與顏色向量的變化范圍有極大不同,所以對不同的維度需要選擇不同的窗口半徑。當窗口移動時,經(jīng)過窗口變換后收斂到該數(shù)據(jù)峰值的點都會連通起來并屬于該峰值,這種所述關系是通過密集的尖峰輻射實現(xiàn)圖像分割。Mean-shift算法能夠綜合考慮多通道顏色特征,區(qū)域大小,空間距離等因素,能將顏色相同或相近,且空間分布集中的像素劃歸到同一區(qū)域,同時將對比度大或者空間距離較遠的樣本劃分到不同的區(qū)域,除此之外,還擁有良好的保邊性,能夠保留圖像區(qū)域清晰的輪廓,約束圖像中的物體形狀,在顏色域和空間域上都具有良好特性[35]。
………….
第3章 基于兩種模型的顯著性檢測.......17
3.1 顯著性檢測評價標準介紹 ...... 17
3.2 基于圖像單元對比度的顯著性檢測 ..... 20
3.3 基于圖像單元主要顏色空間分布特性的顯著性檢測........ 25
3.4 本章小結 .......... 32
第4章 關鍵顯著性區(qū)域增強.....33
4.1 多特征顯著性圖融合 ...... 33
4.2 關鍵顯著性區(qū)域計算 ...... 34
4.3 基于關鍵顯著性區(qū)域中心增強 ..... 36
4.4 實驗仿真 .......... 38
4.5 本章小結 .......... 38
第5章 顯著性檢測模型對比與應用.......39
5.1 實驗對比 .......... 39
5.1.1 實驗平臺的搭建...... 39
5.1.2 實驗數(shù)據(jù)集和評價方法 ........ 40
5.1.3 顯著性檢測方法的全面對比 ....... 40
5.2 顯著性檢測的應用.......... 43
5.2.1 基于顯著性檢測的圖像智能縮放 ...... 44
5.2.2 基于顯著性檢測的圖像風格化 .......... 46
5.3 本章小結 .......... 47
第5章 顯著性檢測模型對比與應用
5.1 實驗對比
實驗硬件平臺為:Intel(R) Core(TM)2 Duo,CPU E4500 @2.2 GHz 2.19 GHz,內存2.00 GB,硬盤240 GB。軟件平臺:Window 7(32位)操作系統(tǒng),Microsoft Visual Studio2010集成開發(fā)環(huán)境,C++編程語言和OpenCV開放性計算機視覺庫。開放性計算機視覺庫OpenCV(Open Source Computer Vision Library) 是由Intel研發(fā),是一個計算機視覺方向的開放性函數(shù)庫,內部使用C/C++編程,可以兼容Windows/Linux/IOS/Android等多種操作系統(tǒng)。除了C/C++外,OpenCV 還支持Java、Python、Ruby、MATLAB等多種語言接口,它包含上千個功能強大函數(shù),覆蓋了計算機視覺的許多應用領域,為開發(fā)者編程處理數(shù)字圖像提供了很大的方便,大大提高了計算機在進行數(shù)字圖像處理時的運行速度,已經(jīng)成為圖像視頻處理領域研究者和開發(fā)者不可或缺的工具。OpenCV是一個近些年剛剛興起的開放性計算機視覺函數(shù)庫,它是由Intel研發(fā)中心最先發(fā)起創(chuàng)立,后來在各方共同努力下,不斷的發(fā)展壯大,已經(jīng)成為計算機視覺領域不可或缺的開發(fā)工具,無論是從事計算機視覺領域研究的學者,還是從事圖像處理領域的公司都廣泛采用OpenCV作為開發(fā)工具。
……………
結論
隨著拍攝設備高速普及,數(shù)字圖像已經(jīng)成為人與人溝通的重要信息載體。特別是近些年來社交網(wǎng)站、微博等圖像分享平臺的興起,更加促使了數(shù)字圖像呈爆炸形式增長。面對海量的網(wǎng)絡圖像,如何讓計算機像人類一樣智能處理圖像,已經(jīng)成為計算視覺領域的研究熱點。顯著性檢測基于生物視覺原理檢測出圖像場景中的目標區(qū)域,雖然并未使計算機獲得圖像承載的信息,但是可以自適應的對場景中的包含主要信息的區(qū)域進行篩選,完全脫離復雜繁瑣的人工交互,為后續(xù)計算機理解圖像語義信息提供幫助,在目標檢測、圖像分類、圖像內容理解等諸多領域都有著廣泛的應用前景,蘊藏著巨大的商業(yè)價值。本課題在前人探索的基礎上,研究可靠的顯著性檢測模型,著力提升檢測結果的精度和召回率,提出了本文以上章節(jié)所述的算法,通過實驗驗證本文算法的有效性,并將顯著性檢測付諸實踐。
…………
參考文獻(略)
本文編號:8438
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/8438.html