軟件缺陷預(yù)測(cè)的特征選擇方法研究
發(fā)布時(shí)間:2021-04-12 11:16
對(duì)軟件項(xiàng)目進(jìn)行開發(fā)和研究時(shí),將不可避免地產(chǎn)生軟件缺陷,因此,及時(shí)發(fā)現(xiàn)和消除所研發(fā)的相關(guān)軟件的缺陷也成為了軟件項(xiàng)目工程開發(fā)需要著重開展的關(guān)鍵工作。隨著全球經(jīng)濟(jì)科技的不斷發(fā)展,在當(dāng)前知識(shí)經(jīng)濟(jì)時(shí)代下,軟件產(chǎn)品充斥著人們的日常生活,與此同時(shí),軟件產(chǎn)品在社會(huì)生產(chǎn)生活領(lǐng)域的作用也持續(xù)提升。相應(yīng)地,軟件產(chǎn)品和系統(tǒng)的質(zhì)量也越來越為人們所關(guān)注。作為軟件工程的關(guān)鍵內(nèi)容,軟件缺陷預(yù)測(cè)技術(shù)以相關(guān)經(jīng)驗(yàn)數(shù)據(jù)為依托,借助機(jī)器學(xué)習(xí)的方法,能夠及時(shí)幫助軟件開發(fā)者和用戶發(fā)現(xiàn)相關(guān)軟件缺陷,進(jìn)而有效節(jié)省軟件開發(fā)所需資源并提高軟件開發(fā)效率,確保產(chǎn)品質(zhì)量。經(jīng)過多年的發(fā)展,軟件預(yù)測(cè)技術(shù)已取得了較大的研究進(jìn)步,但仍存在不足之處,如對(duì)于預(yù)測(cè)模型的分類并不精確、預(yù)測(cè)方法選擇的適用性和針對(duì)性不強(qiáng)等,這也在一定程度上限制了軟件預(yù)測(cè)技術(shù)在相關(guān)行業(yè)領(lǐng)域的應(yīng)用,也增加了相關(guān)軟件系統(tǒng)和產(chǎn)品的隱患。特征選擇是通過從既有的M個(gè)特征中挑選出N個(gè)有效特征,進(jìn)而降低數(shù)據(jù)集的維度,完成系統(tǒng)特定指標(biāo)最優(yōu)化的過程。特征選擇不僅僅是傳統(tǒng)模式識(shí)別中重要的數(shù)據(jù)預(yù)處理技術(shù),而且也是提高學(xué)習(xí)算法的有效手段,主要包括了Filter和Wrapper兩種類型的算法,二者區(qū)別主要體...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:49 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
軟件缺陷預(yù)測(cè)體系框架圖
第3章基于互信息的特征選擇3.3,評(píng)價(jià)函數(shù)J(f)中的b(見式(3.12))對(duì)于特征選擇過程十分重要。當(dāng)b=-1時(shí),J(f)類似于Fatemeh的評(píng)價(jià)函數(shù);當(dāng)b=0時(shí),J(f)類似于Battiti所提函數(shù)(式(3.11))。當(dāng)b=-3時(shí),相應(yīng)結(jié)果表現(xiàn)為圖3.2和圖3.3中的藍(lán)線條,此時(shí),所對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果要優(yōu)于其他取值情況。圖3.2IMIFS在NB分類器上的實(shí)驗(yàn)結(jié)果具體來看,圖3.2為IMIFS在NB(樸素貝葉斯算法)分類器上的實(shí)驗(yàn)結(jié)果。從CM1、JM1、PC1和KC1四個(gè)數(shù)據(jù)集的顯示結(jié)果中可發(fā)現(xiàn),以NB為分類器的情況下,IMIFS對(duì)軟件缺陷的預(yù)測(cè)結(jié)果為,維度較小的缺陷特征子集的缺陷預(yù)測(cè)效果更為突出,且考慮到特征子集的規(guī)模(大。⿲(duì)J(f)的非線性影響的IMIFS算法所確定出的最優(yōu)特征子集對(duì)于缺陷分類效果的過渡比較平滑,但為考慮這一因素的,則存在一定波動(dòng),如CM1和JM1數(shù)據(jù)集下的分類過渡。此外,特征數(shù)(橫坐標(biāo))為2時(shí),缺陷特征分類的準(zhǔn)確度最高,但這并不意味著缺陷數(shù)據(jù)集特征維數(shù)為2時(shí),所對(duì)應(yīng)的特征子集是最好的,原因是,在使用較低維度的特征子集構(gòu)建軟件缺陷預(yù)測(cè)模型時(shí),經(jīng)常會(huì)出現(xiàn)過度擬合的問題。因此,本文認(rèn)為,基于IMIFS+NB的軟件缺陷預(yù)測(cè)的最有特征子集大小應(yīng)選取一個(gè)較為恰當(dāng)?shù)目臻g,而非是特定值,根據(jù)圖3.2所示實(shí)驗(yàn)結(jié)果,可選擇[2,7]這一維度空間作為最優(yōu)特征子集維度,確保缺陷預(yù)測(cè)結(jié)果更具參考性。19
第3章基于互信息的特征選擇圖3.3IMIFS在MLP分類器上的實(shí)驗(yàn)結(jié)果圖3.3為IMIFS在MLP(多層感知機(jī))上的軟件缺陷預(yù)測(cè)結(jié)果。與NB分類器的相似之處為,同樣是對(duì)J(f)受特征子集大小的非線性影響予以考量的IMIFS算法(CM1和PC1)的效果要優(yōu)于其他情況下的IMIFS算法。不同之處在于,在軟件缺陷分類的精確度上,MLP分類器下的精確度峰值主要位于維度相對(duì)較大的中間位置,最優(yōu)特征子集的空間維度基本上占據(jù)了最初原始特征集維度的45%左右,與NB分類器下的低維度特征空間數(shù)據(jù)集相比,這一大小的特征子集要顯得更為合理,能夠在減少缺陷特征間冗余度的同時(shí),盡可能保留多的缺陷信息,避免過度擬合的問題。根據(jù)上述實(shí)驗(yàn)結(jié)果可知,基于改進(jìn)互信息的特征選擇算法IMIFS在提高軟件缺陷分類的效率和準(zhǔn)確度方面具有較為突出的作用。但需要說明的是,在仿真實(shí)驗(yàn)過程中,并未發(fā)現(xiàn)對(duì)所有預(yù)測(cè)模型全部適用的最優(yōu)特征子集,因?yàn)閷?duì)于不同的學(xué)習(xí)算法而言,其學(xué)習(xí)能力也具有一定差異。因此,綜合圖3.2和圖3.3所示結(jié)果,給出IMIFS算法下適用于不同分類器的最優(yōu)特征子集的維度區(qū)間,以供相關(guān)人員參考,如表3.1所示。其中,“()”內(nèi)的數(shù)字為與相應(yīng)結(jié)果對(duì)應(yīng)的最有特征子集內(nèi)的數(shù)據(jù)集個(gè)數(shù)。表3.1IMIFS算法下不同分類器最優(yōu)特征子集維度區(qū)間分類器樸素貝葉斯多層感知機(jī)最優(yōu)特征子集維度區(qū)間[2,7](4)[9.14](4)20
【參考文獻(xiàn)】:
期刊論文
[1]面向制造過程數(shù)據(jù)的兩階段無監(jiān)督特征選擇方法[J]. 張潔,盛夏,張朋,秦威,趙新明. 機(jī)械工程學(xué)報(bào). 2019(17)
[2]基于差空間融合特征選擇的SVM算法[J]. 景煒,丁衛(wèi)平. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(08)
[3]基于基尼指標(biāo)和卡方檢驗(yàn)的特征選擇方法[J]. 陳諶,梁雪春. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(08)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的代價(jià)敏感軟件缺陷預(yù)測(cè)模型[J]. 邱少健,蔡子儀,陸璐. 計(jì)算機(jī)科學(xué). 2019(11)
[5]用于軟件缺陷預(yù)測(cè)的集成模型[J]. 胡夢(mèng)園,黃鴻云,丁佐華. 計(jì)算機(jī)科學(xué). 2019(11)
[6]基于實(shí)例過濾與遷移的跨項(xiàng)目缺陷預(yù)測(cè)方法[J]. 范貴生,刁旭煬,虞慧群,陳麗瓊. 計(jì)算機(jī)工程. 2020(08)
[7]軟件缺陷預(yù)測(cè)技術(shù)研究進(jìn)展[J]. 宮麗娜,姜淑娟,姜麗. 軟件學(xué)報(bào). 2019(10)
[8]基于隨機(jī)森林的信用評(píng)估特征選擇[J]. 王妍. 黑龍江科學(xué). 2019(14)
[9]基于烏鴉搜索算法的新型特征選擇算法[J]. 王穎,曹捷,邱志洋. 吉林大學(xué)學(xué)報(bào)(理學(xué)版). 2019(04)
[10]基于粗糙集和果蠅優(yōu)化算法的特征選擇方法[J]. 方波,陳紅梅,王生武. 計(jì)算機(jī)科學(xué). 2019(07)
碩士論文
[1]基于程序語義的軟件缺陷預(yù)測(cè)技術(shù)研究與實(shí)現(xiàn)[D]. 于悅.北京郵電大學(xué) 2019
[2]基于機(jī)器學(xué)習(xí)的軟件缺陷預(yù)測(cè)方案研究[D]. 李夢(mèng)奇.北京郵電大學(xué) 2019
[3]基于主動(dòng)學(xué)習(xí)的軟件缺陷預(yù)測(cè)方法研究[D]. 吳芳芳.南京大學(xué) 2019
[4]基于特征遷移的跨項(xiàng)目軟件缺陷預(yù)測(cè)[D]. 劉樹毅.內(nèi)蒙古師范大學(xué) 2019
[5]基于集成模型的軟件缺陷預(yù)測(cè)[D]. 胡夢(mèng)園.浙江理工大學(xué) 2019
[6]基于聯(lián)合表示的軟件缺陷預(yù)測(cè)方法研究[D]. 史作婷.南京郵電大學(xué) 2018
[7]特征選擇在軟件缺陷預(yù)測(cè)技術(shù)中的應(yīng)用研究[D]. 王培.華中師范大學(xué) 2013
本文編號(hào):3133204
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:49 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
軟件缺陷預(yù)測(cè)體系框架圖
第3章基于互信息的特征選擇3.3,評(píng)價(jià)函數(shù)J(f)中的b(見式(3.12))對(duì)于特征選擇過程十分重要。當(dāng)b=-1時(shí),J(f)類似于Fatemeh的評(píng)價(jià)函數(shù);當(dāng)b=0時(shí),J(f)類似于Battiti所提函數(shù)(式(3.11))。當(dāng)b=-3時(shí),相應(yīng)結(jié)果表現(xiàn)為圖3.2和圖3.3中的藍(lán)線條,此時(shí),所對(duì)應(yīng)的實(shí)驗(yàn)結(jié)果要優(yōu)于其他取值情況。圖3.2IMIFS在NB分類器上的實(shí)驗(yàn)結(jié)果具體來看,圖3.2為IMIFS在NB(樸素貝葉斯算法)分類器上的實(shí)驗(yàn)結(jié)果。從CM1、JM1、PC1和KC1四個(gè)數(shù)據(jù)集的顯示結(jié)果中可發(fā)現(xiàn),以NB為分類器的情況下,IMIFS對(duì)軟件缺陷的預(yù)測(cè)結(jié)果為,維度較小的缺陷特征子集的缺陷預(yù)測(cè)效果更為突出,且考慮到特征子集的規(guī)模(大。⿲(duì)J(f)的非線性影響的IMIFS算法所確定出的最優(yōu)特征子集對(duì)于缺陷分類效果的過渡比較平滑,但為考慮這一因素的,則存在一定波動(dòng),如CM1和JM1數(shù)據(jù)集下的分類過渡。此外,特征數(shù)(橫坐標(biāo))為2時(shí),缺陷特征分類的準(zhǔn)確度最高,但這并不意味著缺陷數(shù)據(jù)集特征維數(shù)為2時(shí),所對(duì)應(yīng)的特征子集是最好的,原因是,在使用較低維度的特征子集構(gòu)建軟件缺陷預(yù)測(cè)模型時(shí),經(jīng)常會(huì)出現(xiàn)過度擬合的問題。因此,本文認(rèn)為,基于IMIFS+NB的軟件缺陷預(yù)測(cè)的最有特征子集大小應(yīng)選取一個(gè)較為恰當(dāng)?shù)目臻g,而非是特定值,根據(jù)圖3.2所示實(shí)驗(yàn)結(jié)果,可選擇[2,7]這一維度空間作為最優(yōu)特征子集維度,確保缺陷預(yù)測(cè)結(jié)果更具參考性。19
第3章基于互信息的特征選擇圖3.3IMIFS在MLP分類器上的實(shí)驗(yàn)結(jié)果圖3.3為IMIFS在MLP(多層感知機(jī))上的軟件缺陷預(yù)測(cè)結(jié)果。與NB分類器的相似之處為,同樣是對(duì)J(f)受特征子集大小的非線性影響予以考量的IMIFS算法(CM1和PC1)的效果要優(yōu)于其他情況下的IMIFS算法。不同之處在于,在軟件缺陷分類的精確度上,MLP分類器下的精確度峰值主要位于維度相對(duì)較大的中間位置,最優(yōu)特征子集的空間維度基本上占據(jù)了最初原始特征集維度的45%左右,與NB分類器下的低維度特征空間數(shù)據(jù)集相比,這一大小的特征子集要顯得更為合理,能夠在減少缺陷特征間冗余度的同時(shí),盡可能保留多的缺陷信息,避免過度擬合的問題。根據(jù)上述實(shí)驗(yàn)結(jié)果可知,基于改進(jìn)互信息的特征選擇算法IMIFS在提高軟件缺陷分類的效率和準(zhǔn)確度方面具有較為突出的作用。但需要說明的是,在仿真實(shí)驗(yàn)過程中,并未發(fā)現(xiàn)對(duì)所有預(yù)測(cè)模型全部適用的最優(yōu)特征子集,因?yàn)閷?duì)于不同的學(xué)習(xí)算法而言,其學(xué)習(xí)能力也具有一定差異。因此,綜合圖3.2和圖3.3所示結(jié)果,給出IMIFS算法下適用于不同分類器的最優(yōu)特征子集的維度區(qū)間,以供相關(guān)人員參考,如表3.1所示。其中,“()”內(nèi)的數(shù)字為與相應(yīng)結(jié)果對(duì)應(yīng)的最有特征子集內(nèi)的數(shù)據(jù)集個(gè)數(shù)。表3.1IMIFS算法下不同分類器最優(yōu)特征子集維度區(qū)間分類器樸素貝葉斯多層感知機(jī)最優(yōu)特征子集維度區(qū)間[2,7](4)[9.14](4)20
【參考文獻(xiàn)】:
期刊論文
[1]面向制造過程數(shù)據(jù)的兩階段無監(jiān)督特征選擇方法[J]. 張潔,盛夏,張朋,秦威,趙新明. 機(jī)械工程學(xué)報(bào). 2019(17)
[2]基于差空間融合特征選擇的SVM算法[J]. 景煒,丁衛(wèi)平. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(08)
[3]基于基尼指標(biāo)和卡方檢驗(yàn)的特征選擇方法[J]. 陳諶,梁雪春. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(08)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)的代價(jià)敏感軟件缺陷預(yù)測(cè)模型[J]. 邱少健,蔡子儀,陸璐. 計(jì)算機(jī)科學(xué). 2019(11)
[5]用于軟件缺陷預(yù)測(cè)的集成模型[J]. 胡夢(mèng)園,黃鴻云,丁佐華. 計(jì)算機(jī)科學(xué). 2019(11)
[6]基于實(shí)例過濾與遷移的跨項(xiàng)目缺陷預(yù)測(cè)方法[J]. 范貴生,刁旭煬,虞慧群,陳麗瓊. 計(jì)算機(jī)工程. 2020(08)
[7]軟件缺陷預(yù)測(cè)技術(shù)研究進(jìn)展[J]. 宮麗娜,姜淑娟,姜麗. 軟件學(xué)報(bào). 2019(10)
[8]基于隨機(jī)森林的信用評(píng)估特征選擇[J]. 王妍. 黑龍江科學(xué). 2019(14)
[9]基于烏鴉搜索算法的新型特征選擇算法[J]. 王穎,曹捷,邱志洋. 吉林大學(xué)學(xué)報(bào)(理學(xué)版). 2019(04)
[10]基于粗糙集和果蠅優(yōu)化算法的特征選擇方法[J]. 方波,陳紅梅,王生武. 計(jì)算機(jī)科學(xué). 2019(07)
碩士論文
[1]基于程序語義的軟件缺陷預(yù)測(cè)技術(shù)研究與實(shí)現(xiàn)[D]. 于悅.北京郵電大學(xué) 2019
[2]基于機(jī)器學(xué)習(xí)的軟件缺陷預(yù)測(cè)方案研究[D]. 李夢(mèng)奇.北京郵電大學(xué) 2019
[3]基于主動(dòng)學(xué)習(xí)的軟件缺陷預(yù)測(cè)方法研究[D]. 吳芳芳.南京大學(xué) 2019
[4]基于特征遷移的跨項(xiàng)目軟件缺陷預(yù)測(cè)[D]. 劉樹毅.內(nèi)蒙古師范大學(xué) 2019
[5]基于集成模型的軟件缺陷預(yù)測(cè)[D]. 胡夢(mèng)園.浙江理工大學(xué) 2019
[6]基于聯(lián)合表示的軟件缺陷預(yù)測(cè)方法研究[D]. 史作婷.南京郵電大學(xué) 2018
[7]特征選擇在軟件缺陷預(yù)測(cè)技術(shù)中的應(yīng)用研究[D]. 王培.華中師范大學(xué) 2013
本文編號(hào):3133204
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3133204.html
最近更新
教材專著