計算機視覺識別里程碑式突破:成員均是中國人
本文關(guān)鍵詞:計算機視覺,由筆耕文化傳播整理發(fā)布。
一直以來,計算科學(xué)家一直在為建立世界上最精確的計算機視覺系統(tǒng)孜孜不倦地努力著,但取得進展的過程卻一直如馬拉松競賽般漫長而艱辛。近期,微軟亞洲研究院實現(xiàn)的突破讓他們成為了這場競賽的最新領(lǐng)跑者。該團隊所開發(fā)的基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計算機視覺系統(tǒng),在ImageNet1000挑戰(zhàn)中首次超越了人類進行對象識別分類的能力。
該研究團隊是微軟亞洲研究院視覺計算組,他們開發(fā)了一個計算機視覺系統(tǒng),該系統(tǒng)基于深度卷積神經(jīng)網(wǎng)絡(luò)(注:卷積神經(jīng)網(wǎng)絡(luò),Convolutional Neural Networks,縮寫為CNN,不是那個教老外在中國找女友的電視臺的CNN哦)。該研究團隊的論文名稱較長:“Delving Deepinto Rectifiers: Surpassing Human-Level Performanceon ImageNet Classification”。論文中指出,他們的系統(tǒng)在ImageNet2012分類數(shù)據(jù)集中的錯誤率已降低至4.94%。此前同樣的實驗中,人眼辨識的錯誤率大概為5.1%。這個數(shù)據(jù)集包含約120萬張訓(xùn)練圖像、5萬張驗證圖像和10萬張測試圖像,分為1000個不同的類別。微軟研究員表示:“據(jù)我們所知,我們的研究成果是這項視覺識別挑戰(zhàn)中第一個超越人類視覺能力的計算機系統(tǒng)!
4人團隊:孫劍、何愷明、張祥雨、任少卿
值得一提的是,完成這個研究的團隊僅有4人,全部由中國人組成:2人為微軟亞洲研究院研究員孫劍與何愷明,另外2人為實習(xí)生,分別是來自西安交通大學(xué)的張祥雨和中國科學(xué)技術(shù)大學(xué)的任少卿。
何愷明(資料圖)
目標:能與人類視覺媲美,甚至比人類更準確
微軟研究員在論文中指出,修正神經(jīng)元(rectifierneuron)是近期將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于計算機視覺挑戰(zhàn)時取得成功的關(guān)鍵要素之一。
研究人員表示:“在本論文中,我們從兩個方面對主要由修正神經(jīng)元驅(qū)動的神經(jīng)網(wǎng)絡(luò)進行了研究。首先,我們生成了一種新的修正線性單元(ReLU),并將其稱為參數(shù)化修正線性單元(PReLU)。該激活函數(shù)不僅可自適應(yīng)獲取修正參數(shù),還可提高計算精度,且所需額外計算成本幾乎可以忽略不計。其次,我們研究了深度修正模型的訓(xùn)練難度。我們通過對修正線性單元(即ReLU/PReLU)的非線性特征進行直接建模,推導(dǎo)出一種符合理論的初始化方法,并直接從頭開始訓(xùn)練網(wǎng)絡(luò),將其應(yīng)用于深度模型(例如,具有30個帶權(quán)層的模型)的收斂過程。這為我們探索功能更強大的網(wǎng)絡(luò)體系結(jié)構(gòu)提供了更多的靈活性!
這個數(shù)據(jù)集包含約120萬張訓(xùn)練圖像、5萬張驗證圖像和10萬張測試圖像,分為1000個不同的類別(來源:微軟亞洲研究院)
該研究團隊雖然對其算法超越人類視覺識別極限感到興奮不已,但與該領(lǐng)域的其他研究人員一樣,研究團隊成員也強調(diào),計算機視覺目前從根本上仍無法與人類視覺相比。計算機系統(tǒng)在識別物體、理解圖像上下文及場景高級信息等領(lǐng)域仍面臨諸多挑戰(zhàn)。
“雖然我們的算法基于該特定的數(shù)據(jù)集得出了極為理想的結(jié)果,但這并不表明在對象識別領(lǐng)域機器視覺普遍優(yōu)于人類視覺。某些對于人類來說輕而易舉的基本對象類別的識別,機器識別仍然存在明顯錯誤。盡管如此,我們的研究結(jié)果表明機器算法在眾多視覺識別任務(wù)上具有巨大的發(fā)展?jié)摿Α!?/p>
“人類可以毫不費力地區(qū)分出一只羊和一頭牛。但計算機在執(zhí)行這些簡單任務(wù)時卻不盡完美,”孫劍解釋道!但是,當涉及到不同品種的羊的區(qū)分時,計算機可超越人類。通過訓(xùn)練,計算機可觀察圖像的細節(jié)、紋理、形狀及環(huán)境,并發(fā)現(xiàn)人類無法察覺出的區(qū)別。”
微軟研究團隊的工作并不僅僅局限于基礎(chǔ)研究,其多項成果已被應(yīng)用到微軟的產(chǎn)品和服務(wù)中,包括必應(yīng)圖片搜索及微軟云存儲解決方案OneDrive。在近期的一篇博文中,微軟OneDrive項目經(jīng)理Douglas Pearce介紹了OneDrive自動識別照片內(nèi)容的功能。
“OneDrive會自動為用戶上傳的照片創(chuàng)建標簽,比如人、狗、沙灘、落日等等,使用戶借助標簽?zāi)軌蚋p松地尋找到自己的圖片。有了這項功能,我們向演示項目中添加照片、與家人重溫特殊回憶,或與Facebook好友分享重要時刻就變得輕而易舉!盤earce如是說。
想要了解此項技術(shù)背后原理的讀者可閱讀微軟研究院去年發(fā)布的專題文章。該文章介紹了來自同一研究團隊的研究成果,他們在保持準確性不變的條件下將深度學(xué)習(xí)目標檢測系統(tǒng)加速了多達100倍。該團隊的科研進展記錄于題為“Spatial Pyramid Poolingin Deep Convolutional Networks for Visual Recognition”研究論文中。
“微軟亞洲研究院視覺計算研究組一直致力于推動計算機視覺研究的前沿發(fā)展,終極目標是使計算機能夠模擬出人類的感知能力。我對研究組多年來所取得的成就深感自豪,他們不僅以高質(zhì)量的論文取得了學(xué)術(shù)界的認可,而且通過將這些技術(shù)轉(zhuǎn)化到了微軟的多個核心產(chǎn)品中!蔽④泚喬邪l(fā)集團主席兼微軟亞洲研究院院長洪小文博士說道。
2010年,來自斯坦福大學(xué)、普林斯頓大學(xué)及哥倫比亞大學(xué)的科學(xué)家們啟動大規(guī)模視覺識別挑戰(zhàn)賽(Large Scale Visual Recognition Challenge),推動了計算機視覺識別挑戰(zhàn)的持續(xù)發(fā)展?萍夹袠I(yè)知名記者John Markoff于2014年8月在《紐約時報》上刊登文章指出,2014年計算機識別挑戰(zhàn)的目標識別準確率幾乎提升了一倍,圖像分類錯誤率也減少了一半。最近,百度的研究人員在其論文中宣稱,以ImageNet對象分類為基準,百度的計算機視覺系統(tǒng)實現(xiàn)了前五選5.33%的錯誤率。
關(guān)于計算機視覺的挑戰(zhàn)仍在繼續(xù),今年的挑戰(zhàn)賽將于12月啟動。但這并不是孫劍、何愷明及其研究團隊的關(guān)注重點!拔覀兊哪繕耸窃诒姸鄳(yīng)用上開發(fā)出能與人類視覺媲美,甚至比人類更準確的計算機視覺系統(tǒng),”孫劍說道!叭缫獙崿F(xiàn)這一目標,,我們需要更多的訓(xùn)練數(shù)據(jù)和更加真實的測試場景。我們在必應(yīng)、OneDrive和其他服務(wù)平臺上的工作將幫助我們進一步改善算法的魯棒性(注:魯棒性,即強壯性,Robust)!
微信搜索“
本文關(guān)鍵詞:計算機視覺,由筆耕文化傳播整理發(fā)布。
本文編號:45011
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/45011.html