天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于鄰域粗糙集的主動(dòng)學(xué)習(xí)方法

發(fā)布時(shí)間:2019-09-25 20:36
【摘要】:主動(dòng)學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的重要研究方向。現(xiàn)有主動(dòng)學(xué)習(xí)方法通常選擇不確定性的或具有代表性的樣本供專家打標(biāo),然后添加到已標(biāo)記的數(shù)據(jù)集中供分類(lèi)器學(xué)習(xí),但沒(méi)能充分利用數(shù)據(jù)的分布信息,并且在野點(diǎn)采集問(wèn)題上有待改進(jìn)。結(jié)合鄰域粗糙集理論,提出了一種基于鄰域粗糙集的主動(dòng)學(xué)習(xí)方法(neighhbor rough set active learning,NRS-AL)。實(shí)驗(yàn)結(jié)果表明,在加州大學(xué)數(shù)據(jù)集(university of California Irvine,UCI)上,該算法充分利用了數(shù)據(jù)的分布信息,同時(shí)結(jié)合樣本的不確定性和代表性計(jì)算,處理了野點(diǎn)的選擇,是一種能有效解決主動(dòng)學(xué)習(xí)樣本選擇問(wèn)題的算法,在accuracy,受試者工作特征(receiver operating characteristic curve,ROC)曲線下面的面積(area under curve,AUC)指標(biāo)上優(yōu)于文獻(xiàn)中的主動(dòng)學(xué)習(xí)算法。
【圖文】:

原理圖,無(wú)標(biāo)記,鄰域,樣本


別的密度均值,其中,sim(o,j)為2個(gè)樣本的相似度,這里考慮余弦相似度,設(shè)向量M=(M1,M2,…,Mn),N=(N1,N2,…,,Nn)sim(M,N)=Σn1(Mi×Ni)Σn1M2i醝×Σn1N2i醝(9)鄰域內(nèi)的無(wú)標(biāo)記樣本信息量原理如圖1所示,在有標(biāo)記樣本集中計(jì)算無(wú)標(biāo)記樣本A和B的信息量,在A的鄰域中,含有更多類(lèi)別的樣本,所以無(wú)標(biāo)記樣本A的信息量大于B,樣本A更容易被選中。圖1鄰域內(nèi)的無(wú)標(biāo)記樣本信息量原理圖Fig.1Principleofcalculatingtheinformationquantityofthenonlabeledsamplesintheneighborhood2.1.4計(jì)算待標(biāo)記樣本的泛化量考慮樣本的泛化性能,也就是需要待標(biāo)記樣本處于訓(xùn)練集的低密度區(qū)域,并且處于無(wú)標(biāo)簽數(shù)據(jù)集的高密度區(qū)域。無(wú)標(biāo)簽樣本鄰域泛化性定義如下gene(x)=dens_u(x)p/dens_l(x)q(10)(10)式中:dens_1表示樣本在訓(xùn)練集中的鄰域密度;dens_u表示樣本在無(wú)標(biāo)簽數(shù)據(jù)集中的鄰域密度;q,p為權(quán)重。無(wú)標(biāo)記樣本在有標(biāo)記樣本鄰域和無(wú)標(biāo)記樣本鄰域計(jì)算泛化量原理如圖2所示,在所有樣本集中計(jì)算無(wú)標(biāo)記樣本A和B的泛化量,在A的鄰域中,A處于無(wú)標(biāo)記樣本集的高密度區(qū)域,有標(biāo)記樣本集的低密度區(qū)域,而B(niǎo)樣本處于有標(biāo)記樣本的高密度區(qū)域,所以,A的泛化量大于B,樣本A會(huì)更容易被選中。2.1.5計(jì)算待標(biāo)記樣本的重要性為了避免信息量和泛化量過(guò)大過(guò)小,所以考慮取p泛數(shù),省去了調(diào)參過(guò)程。imp(x)=(info(x)p+gene(x)p)1/p(11)將樣本按照重要性排序,取TopK添加到訓(xùn)練集,并從無(wú)標(biāo)簽樣本中刪除這部分樣本2.1.6基于鄰域樣本縮減解決采集野點(diǎn)的問(wèn)題在無(wú)標(biāo)記樣本集中指定一個(gè)較小的鄰域半徑權(quán)重w,在預(yù)處理階段刪除鄰域內(nèi)的樣本即可,即可達(dá)到去除野點(diǎn)?

原理圖,無(wú)標(biāo)記,樣本,鄰域


小?圖1鄰域內(nèi)的無(wú)標(biāo)記樣本信息量原理圖Fig.1Principleofcalculatingtheinformationquantityofthenonlabeledsamplesintheneighborhood2.1.4計(jì)算待標(biāo)記樣本的泛化量考慮樣本的泛化性能,也就是需要待標(biāo)記樣本處于訓(xùn)練集的低密度區(qū)域,并且處于無(wú)標(biāo)簽數(shù)據(jù)集的高密度區(qū)域。無(wú)標(biāo)簽樣本鄰域泛化性定義如下gene(x)=dens_u(x)p/dens_l(x)q(10)(10)式中:dens_1表示樣本在訓(xùn)練集中的鄰域密度;dens_u表示樣本在無(wú)標(biāo)簽數(shù)據(jù)集中的鄰域密度;q,p為權(quán)重。無(wú)標(biāo)記樣本在有標(biāo)記樣本鄰域和無(wú)標(biāo)記樣本鄰域計(jì)算泛化量原理如圖2所示,在所有樣本集中計(jì)算無(wú)標(biāo)記樣本A和B的泛化量,在A的鄰域中,A處于無(wú)標(biāo)記樣本集的高密度區(qū)域,有標(biāo)記樣本集的低密度區(qū)域,而B(niǎo)樣本處于有標(biāo)記樣本的高密度區(qū)域,所以,A的泛化量大于B,樣本A會(huì)更容易被選中。2.1.5計(jì)算待標(biāo)記樣本的重要性為了避免信息量和泛化量過(guò)大過(guò)小,所以考慮取p泛數(shù),省去了調(diào)參過(guò)程。imp(x)=(info(x)p+gene(x)p)1/p(11)將樣本按照重要性排序,取TopK添加到訓(xùn)練集,并從無(wú)標(biāo)簽樣本中刪除這部分樣本2.1.6基于鄰域樣本縮減解決采集野點(diǎn)的問(wèn)題在無(wú)標(biāo)記樣本集中指定一個(gè)較小的鄰域半徑權(quán)重w,在預(yù)處理階段刪除鄰域內(nèi)的樣本即可,即可達(dá)到去除野點(diǎn)的目的。圖2無(wú)標(biāo)記樣本在有標(biāo)記樣本鄰域和無(wú)標(biāo)記樣本鄰域計(jì)算泛化量原理Fig.2Nonlabeledsamplesarecalculatedfromtheneighborhoodoflabeledsamplesandtheneighborhoodofunlabeledsamples2.2算法描述基于鄰域粗糙集的主動(dòng)學(xué)習(xí)方法的具體步驟。1)根據(jù)指定參數(shù)劃分?jǐn)?shù)據(jù)集,輸入訓(xùn)練集占比,無(wú)標(biāo)簽樣本占比,剩余數(shù)據(jù)為測(cè)試集,算法如下。算法1數(shù)據(jù)集劃分算法輸入:全部數(shù)據(jù)集ASet,訓(xùn)練集比重t,無(wú)標(biāo)簽數(shù)據(jù)比重u。
【作者單位】: 重慶郵電大學(xué)計(jì)算智能重慶市重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金(61309014) 教育部人文社科規(guī)劃項(xiàng)目(15XJA630003) 重慶市教委科學(xué)技術(shù)研究項(xiàng)目(KJ1500416) 重慶市基礎(chǔ)與前沿研究計(jì)劃項(xiàng)目(cstc2013jcyj A40063)~~
【分類(lèi)號(hào)】:TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周軍,張慶靈,陳文實(shí);覆蓋粗糙集的一般化[J];東北大學(xué)學(xué)報(bào);2004年10期

2 邱兆雷;范穎;王愛(ài)云;;粗糙集理論及進(jìn)展[J];信息技術(shù)與信息化;2006年05期

3 徐偉華;張文修;;覆蓋廣義粗糙集的模糊性[J];模糊系統(tǒng)與數(shù)學(xué);2006年06期

4 石杰;;粗糙集理論及其應(yīng)用研究[J];科技信息;2008年33期

5 唐彬;;粗糙集理論和應(yīng)用研究[J];內(nèi)江科技;2008年03期

6 胡軍;王國(guó)胤;;覆蓋粗糙集的模糊度[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期

7 燕紅文;康向平;張麗;;依賴空間與粗糙集理論[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年09期

8 林國(guó)平;;覆蓋廣義粗糙集與信任函數(shù)[J];漳州師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2010年02期

9 王石平;祝峰;朱培勇;;基于抽象相關(guān)關(guān)系的粗糙集研究[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期

10 成新文;陳國(guó)超;李琦;;關(guān)于粗糙集的理論及應(yīng)用研究[J];煤炭技術(shù);2010年10期

相關(guān)會(huì)議論文 前10條

1 鄒剛;滕書(shū)華;孫即祥;陳森林;敖永紅;;一種粗糙集優(yōu)化協(xié)同原型模式約簡(jiǎn)分類(lèi)方法[A];第十四屆全國(guó)信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2009)論文集[C];2009年

2 葛麗;傅彥;;粗糙集在科學(xué)數(shù)據(jù)屬性約簡(jiǎn)中的應(yīng)用[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年

3 陳雪飛;;粗糙集分類(lèi)中耦合數(shù)據(jù)的處理方法研究[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2008年

4 肖健梅;蘆曉明;王錫淮;;集裝箱起重機(jī)防搖系統(tǒng)粗糙集控制[A];第二十六屆中國(guó)控制會(huì)議論文集[C];2007年

5 王印松;馮康;;主汽溫調(diào)節(jié)系統(tǒng)性能評(píng)價(jià)的粗糙集實(shí)現(xiàn)方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年

6 卓明;王麗珍;譚旭;;基于粗糙集近似集擴(kuò)展的規(guī)則提取算法[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年

7 董廣軍;張永生;戴晨光;范永弘;;基于粗糙集的多源信息融合處理技術(shù)[A];第三屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2005年

8 李雄;李勝利;徐宗昌;;基于粗糙集理論的狀態(tài)監(jiān)測(cè)與故障診斷(英文)[A];第三屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2005年

9 袁瑗;黃河清;;基于粗糙集輔助推理的故障診斷專家系統(tǒng)[A];全國(guó)自動(dòng)化新技術(shù)學(xué)術(shù)交流會(huì)會(huì)議論文集(一)[C];2005年

10 孫亮;楊飛;于建均;陳梅蓮;;一種基于指數(shù)粗糙集合的變精度控制器應(yīng)用研究[A];第25屆中國(guó)控制會(huì)議論文集(下冊(cè))[C];2006年

相關(guān)博士學(xué)位論文 前10條

1 馬希驁;概率粗糙集屬性約簡(jiǎn)理論及方法研究[D];西南交通大學(xué);2014年

2 唐孝;基于粗糙集的知識(shí)發(fā)現(xiàn)方法及其在ECG信號(hào)識(shí)別中的應(yīng)用[D];電子科技大學(xué);2015年

3 曾凱;鄰域;植谟(jì)算的關(guān)鍵技術(shù)研究與應(yīng)用[D];電子科技大學(xué);2015年

4 王永生;基于粗糙集理論的動(dòng)態(tài)數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究[D];北京科技大學(xué);2016年

5 馬周明;基于邊界域的多粒度粗糙集及其相關(guān)度量[D];河北師范大學(xué);2017年

6 孔芝;粗糙集理論若干問(wèn)題的研究與應(yīng)用[D];東北大學(xué);2009年

7 秦中廣;基于粗糙集的交叉研究及其在中醫(yī)診斷的應(yīng)用[D];華南理工大學(xué);2002年

8 劉少輝;知識(shí)發(fā)現(xiàn)中粗糙集理論的研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年

9 鄧大勇;基于粗糙集的數(shù)據(jù)約簡(jiǎn)及粗糙集擴(kuò)展模型的研究[D];北京交通大學(xué);2007年

10 孫英娟;基于粗糙集的分類(lèi)方法研究[D];吉林大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 江飛;粗糙集神經(jīng)網(wǎng)絡(luò)故障診斷方法研究[D];西安石油大學(xué);2015年

2 張德齊;基于粗糙集理論的電機(jī)故障診斷方法研究[D];渤海大學(xué);2015年

3 聶萌瑤;基于泛系串并模型的粗糙集概念擴(kuò)展與拓?fù)淇臻g[D];蘭州大學(xué);2015年

4 孫宇航;粗糙集屬性約簡(jiǎn)方法在醫(yī)療診斷中的應(yīng)用研究[D];蘇州大學(xué);2015年

5 車(chē)世遠(yuǎn);基于群搜索優(yōu)化粗糙集的腦科學(xué)數(shù)據(jù)研究[D];大連海事大學(xué);2015年

6 邊松珍;簡(jiǎn)易覆蓋及基于覆蓋的粗傳播[D];山東大學(xué);2015年

7 張雷;基于粗糙集和SVM的體域網(wǎng)健康評(píng)估方法研究[D];浙江師范大學(xué);2015年

8 張寧;基于粗糙集的代價(jià)區(qū)間與多人三支決策的研究[D];浙江師范大學(xué);2015年

9 樊兵嬌;基于證據(jù)理論的知識(shí)發(fā)現(xiàn)與不確定性研究[D];重慶理工大學(xué);2015年

10 程鈺;基于粗糙集的屬性選擇系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山西大學(xué);2015年



本文編號(hào):2541595

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2541595.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶87a7b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com