基于分類噪聲檢測的支持向量機(jī)算法研究
本文關(guān)鍵詞:基于分類噪聲檢測的支持向量機(jī)算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計學(xué)習(xí)理論的一種優(yōu)秀的機(jī)器學(xué)習(xí)方法。它在最基本的線性可分問題中,采用與結(jié)構(gòu)風(fēng)險最小化理論一致的間隔最大化原理產(chǎn)生原始凸規(guī)劃問題模型,使得基本問題模型具有良好的泛化能力。并且由于模型是凸規(guī)劃模型,所以能夠獲得全局最優(yōu)解。在獲得這些良好特性的基礎(chǔ)上,通過引入懲罰系數(shù)和懲罰因子來獲得線性不可分問題的問題模型。并通過進(jìn)一步使用核函數(shù)理論來解決非線性問題,從而避免了維數(shù)災(zāi)難。由于其優(yōu)異的性能,已經(jīng)廣泛應(yīng)用于模式分類,密度估計和函數(shù)逼近等領(lǐng)域,成為機(jī)器學(xué)習(xí)中的研究熱點(diǎn)。本文圍繞支持向量機(jī)在分類問題中的訓(xùn)練過程和過學(xué)習(xí)現(xiàn)象,瞄準(zhǔn)高維數(shù)據(jù)中的相對密度計算及與支持向量機(jī)的結(jié)合為關(guān)鍵問題,以提高支持向量機(jī)的訓(xùn)練速度為主要目的,其具體的研究成果主要包括以下幾個內(nèi)容:①通過分析分類問題中噪聲數(shù)據(jù)的特點(diǎn),引入分類噪聲的概念,提出了相對密度模型對其進(jìn)行檢測。分類問題中的噪聲數(shù)據(jù)會明顯減弱決策曲線的平滑度,降低決策函數(shù)的泛化能力,從而引起過擬合,因而挖掘這些噪聲數(shù)據(jù)具有重要意義。本文針對現(xiàn)有算法無法有效檢測分類問題中的噪聲數(shù)據(jù)的問題,基于噪聲數(shù)據(jù)在同類樣本集合中的樣本密度要小于在異類樣本集合中的樣本密度,引入了分類噪聲的概念,進(jìn)一步提出了相對密度模型來對分類噪聲進(jìn)行快速有效地檢測。仿真實驗表明相對密度模型能夠很好的識別分類噪聲。②通過排除分類噪聲將不可分問題轉(zhuǎn)化為可分問題,簡化了支持向量機(jī)模型和訓(xùn)練過程,并結(jié)合序列最小優(yōu)化(Sequential Minimal Optimization,SMO)算法,提出了基于分類噪聲檢測的序列最小優(yōu)化算法(Classification Noises Detection based Sequential Minimal Optimization,CNSMO)。針對現(xiàn)有的支持向量機(jī)在訓(xùn)練過程中依賴交叉驗證會大幅增加訓(xùn)練時間的問題,CNSMO算法通過排除分類噪聲后平滑了決策函數(shù),避免了分類噪聲產(chǎn)生的過學(xué)習(xí)現(xiàn)象,因此在訓(xùn)練過程中不需要使用交叉驗證也能夠獲得良好的預(yù)測精度。同時,由于排除分類噪聲將不可分問題轉(zhuǎn)化為可分問題,不需要對懲罰系數(shù)進(jìn)行尋優(yōu),簡化了拉格朗日參數(shù)迭代模型。仿真結(jié)果表明改進(jìn)算法能夠在不犧牲算法預(yù)測精度的前提下,大幅縮短了支持向量機(jī)的訓(xùn)練時間,算法具有良好的穩(wěn)定性。③通過計算到某些固定參考點(diǎn)的度量來衡量不同樣本之間的位置差異,以避免直接計算樣本之間的歐式距離,提出了基于位置差異的近鄰搜索算法(Location Difference based Algorithm,LDBA)。針對在相對密度計算中使用的現(xiàn)有近鄰算法在高維數(shù)據(jù)集中性能下降的問題,LDBA算法使用參考點(diǎn)與樣本所構(gòu)成的角度和距離來度量不同樣本點(diǎn)之間的位置差異,避免對樣本之間的歐式距離直接進(jìn)行計算,因此具有較低的算法時間復(fù)雜度。另外,LDBA算法不依賴索引樹結(jié)構(gòu),因此在高維數(shù)據(jù)集中仍然能夠保持良好的算法效率。仿真結(jié)果表明LDBA算法具有和基本算法接近的預(yù)測精度,但比同類算法在高維數(shù)據(jù)集中表現(xiàn)出了更好的算法效率。④通過將LDBA算法結(jié)合到CNSMO算法中,提出了基于位置差異和分類噪聲的最小序列化支持向量機(jī)算法(Location Difference and Classification Noise based Sequential Minimal Optimization,LD-CNSMO)。針對CNSMO算法在高維數(shù)據(jù)集中性能下降的問題,將LDBA算法結(jié)合到相對密度的計算過程中以檢測和消除分類噪聲,提出了LD-CNSMO算法。由于LDBA算法不依賴樹索引結(jié)構(gòu),因此LD-CNSMO算法能夠在高維數(shù)據(jù)集中保持良好的算法效率。仿真結(jié)果表明LD_CNSMO算法在高維數(shù)據(jù)集中能夠獲得比CNSMO和其他算法更好的算法效率。本論文引入分類噪聲后,通過使用基于LDBA的相對密度模型進(jìn)行檢測和排除分類噪聲,并結(jié)合到SMO支持向量機(jī)中,避免了在支持向量機(jī)訓(xùn)練過程中使用交叉驗證。在不影響算法泛化能力的情況下,大幅度提高了算法在低維和高維數(shù)據(jù)集中的訓(xùn)練效率,并增強(qiáng)了算法穩(wěn)定性,有效地提高了支持向量機(jī)的算法性能。
【關(guān)鍵詞】:支持向量機(jī) 核函數(shù) 分類噪聲 相對密度 位置差異 近鄰搜算 序列最小優(yōu)化
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP181
【目錄】:
- 中文摘要3-5
- Abstract5-10
- 主要符號對照表10-11
- 1 緒論11-19
- 1.1 研究背景11-12
- 1.2 支持向量機(jī)的研究現(xiàn)狀12-15
- 1.2.1 支持向量機(jī)的算法研究12-15
- 1.2.2 支持向量機(jī)的應(yīng)用研究15
- 1.3 論文的研究意義和主要內(nèi)容15-17
- 1.3.1 論文的研究意義15
- 1.3.2 論文的主要研究內(nèi)容15-16
- 1.3.3 擬解決的關(guān)鍵問題16-17
- 1.4 本文的結(jié)構(gòu)安排17-19
- 2 支持向量機(jī)理論基礎(chǔ)19-45
- 2.1 統(tǒng)計學(xué)習(xí)理論19-25
- 2.1.1 經(jīng)驗風(fēng)險最小化準(zhǔn)則19-20
- 2.1.2 學(xué)習(xí)過程的一致性20-21
- 2.1.3 VC維與推廣能力的界21-22
- 2.1.4 結(jié)構(gòu)風(fēng)險最小化原則22-25
- 2.2 最優(yōu)化理論25-26
- 2.3 支持向量機(jī)26-40
- 2.3.1 最優(yōu)分類超平面26-28
- 2.3.2 線性支持向量機(jī)28-32
- 2.3.3 核函數(shù)和非線性支持向量機(jī)32-37
- 2.3.4 變形支持向量機(jī)37-40
- 2.4 序列最小優(yōu)化算法40-43
- 2.5 本章小結(jié)43-45
- 3 基于分類噪聲檢測的低維支持向量機(jī)45-61
- 3.1 研究背景與問題分析45
- 3.2 分類噪聲45-47
- 3.3 使用相對密度檢測分類噪聲47-51
- 3.3.1 相對密度的定義47-49
- 3.3.2 相對密度的有效性49-51
- 3.4 基基于分類噪聲檢測的序列最小優(yōu)化算法51-54
- 3.4.1 C-支持向量機(jī)51-52
- 3.4.2 基于分類噪聲檢測的序列最小優(yōu)化模型52-54
- 3.4.3 算法效率分析54
- 3.5 仿真實驗分析54-59
- 3.6 本章小結(jié)59-61
- 4 基于位置差異的高維相對密度算法61-85
- 4.1 基于位置差異的近鄰搜索算法61-68
- 4.1.1 位置差異因子61-64
- 4.1.2 算法設(shè)計64-67
- 4.1.3 參數(shù) ε 的設(shè)置67-68
- 4.2 仿真實驗分析68-79
- 4.2.1 LDBA算法有效性分析68-72
- 4.2.2 LDBA算法效率分析72-79
- 4.3 基于位置差異的高維相對密度算法79-83
- 4.3.1 算法設(shè)計和復(fù)雜度分析79-80
- 4.3.2 仿真實驗分析80-83
- 4.4 本章小結(jié)83-85
- 5 基于位置差異和分類噪聲檢測的支持向量機(jī)85-95
- 5.1 基于位置差異和分類噪聲檢測的支持向量機(jī)85-87
- 5.1.1 算法設(shè)計85-86
- 5.1.2 算法效率分析86-87
- 5.2 仿真實驗分析87-93
- 5.3 本章小結(jié)93-95
- 6 總結(jié)和展望95-97
- 6.1 取得的成果和創(chuàng)新點(diǎn)95
- 6.2 未來的工作展望95-97
- 致謝97-99
- 參考文獻(xiàn)99-107
- 附錄107
- A. 作者在攻讀學(xué)位期間以第一作者發(fā)表的相關(guān)論文目錄:107
- B. 作者在攻讀學(xué)位期間參加的相關(guān)科研項目:107
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳娟;范玉妹;王麗;;關(guān)于改進(jìn)的支持向量機(jī)的研究[J];攀枝花學(xué)院學(xué)報;2006年05期
2 劉碩明;劉佳;楊海濱;;一種新的多類支持向量機(jī)算法[J];計算機(jī)應(yīng)用;2008年S2期
3 尹傳環(huán);牟少敏;田盛豐;黃厚寬;;單類支持向量機(jī)的研究進(jìn)展[J];計算機(jī)工程與應(yīng)用;2012年12期
4 王云英;閻滿富;;C-支持向量機(jī)及其改進(jìn)[J];唐山師范學(xué)院學(xué)報;2012年05期
5 李逢煥;;試述不確定支持向量機(jī)應(yīng)用分析及改進(jìn)思路[J];中國證券期貨;2012年12期
6 邵惠鶴;支持向量機(jī)理論及其應(yīng)用[J];自動化博覽;2003年S1期
7 曾嶸,蔣新華,劉建成;基于支持向量機(jī)的異常值檢測的兩種方法[J];信息技術(shù);2004年05期
8 張凡,賀蘇寧;模糊判決支持向量機(jī)在自動語種辨識中的研究[J];計算機(jī)工程與應(yīng)用;2004年21期
9 魏玲,張文修;基于支持向量機(jī)集成的分類[J];計算機(jī)工程;2004年13期
10 沈翠華,鄧乃揚(yáng),肖瑞彥;基于支持向量機(jī)的個人信用評估[J];計算機(jī)工程與應(yīng)用;2004年23期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 余樂安;姚瀟;;基于中心化支持向量機(jī)的信用風(fēng)險評估模型[A];第六屆(2011)中國管理學(xué)年會——商務(wù)智能分會場論文集[C];2011年
2 劉希玉;徐志敏;段會川;;基于支持向量機(jī)的創(chuàng)新分類器[A];山東省計算機(jī)學(xué)會2005年信息技術(shù)與信息化研討會論文集(一)[C];2005年
3 史曉濤;劉建麗;駱玉榮;;一種抗噪音的支持向量機(jī)學(xué)習(xí)方法[A];全國第19屆計算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集(下冊)[C];2008年
4 何琴淑;劉信恩;肖世富;;基于支持向量機(jī)的系統(tǒng)辨識方法研究及應(yīng)用[A];中國力學(xué)大會——2013論文摘要集[C];2013年
5 劉駿;;基于支持向量機(jī)方法的衢州降雪模型[A];第五屆長三角氣象科技論壇論文集[C];2008年
6 王婷;胡秀珍;;基于組合向量的支持向量機(jī)方法預(yù)測膜蛋白類型[A];第十一次中國生物物理學(xué)術(shù)大會暨第九屆全國會員代表大會摘要集[C];2009年
7 趙晶;高雋;張旭東;謝昭;;支持向量機(jī)綜述[A];全國第十五屆計算機(jī)科學(xué)與技術(shù)應(yīng)用學(xué)術(shù)會議論文集[C];2003年
8 周星宇;王思元;;智能數(shù)學(xué)與支持向量機(jī)[A];2005年中國智能自動化會議論文集[C];2005年
9 顏根廷;馬廣富;朱良寬;宋斌;;一種魯棒支持向量機(jī)算法[A];2006中國控制與決策學(xué)術(shù)年會論文集[C];2006年
10 侯澍e,
本文編號:255487
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/255487.html