基于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法及其應(yīng)用研究
發(fā)布時(shí)間:2021-11-19 13:01
在當(dāng)今的大數(shù)據(jù)和人工智能時(shí)代,數(shù)據(jù)、算法和算力尤為重要。從海量數(shù)據(jù)中設(shè)計(jì)算法挖掘出“數(shù)據(jù)關(guān)聯(lián)”后的知識(shí),可視化其價(jià)值,這是數(shù)據(jù)挖掘研究的核心。在數(shù)據(jù)挖掘算法中,神經(jīng)網(wǎng)絡(luò)在分析處理文本、圖像、音頻等數(shù)字信息中,是一種行之有效的數(shù)據(jù)分析、處理方法。基于此,本論文主要研究基于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法以及數(shù)據(jù)挖掘算法在特定領(lǐng)域下的工程應(yīng)用。主要工作概括如下:(1)神經(jīng)網(wǎng)絡(luò)的可解釋性研究論文重點(diǎn)關(guān)注神經(jīng)網(wǎng)絡(luò)理論中的可解釋性,主要分析了可解釋性的主流研究方法和模型;谖谋痉诸惾蝿(wù),以fastText模型為基礎(chǔ),設(shè)計(jì)了具有結(jié)構(gòu)可解釋性質(zhì)的拓展網(wǎng)絡(luò)NNF。通過(guò)對(duì)比f(wàn)astText和NNF在相同任務(wù)上的表現(xiàn),發(fā)現(xiàn)NNF在各方面表現(xiàn)良好,具有一定的應(yīng)用價(jià)值。(2)基于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法研究論文主要研究了TextCNN文本分類算法、FP-Growth關(guān)聯(lián)規(guī)則算法和LDA聚類算法。論文從TextCNN模型結(jié)構(gòu)的角度分析,得出了其處理分類任務(wù)時(shí)的特點(diǎn)。并通過(guò)在特定數(shù)據(jù)集上訓(xùn)練并測(cè)試TextCNN,有效證明了TextCNN的應(yīng)用效果。同時(shí),通過(guò)在相同數(shù)據(jù)集下對(duì)比分析fastText、NNF和TextC...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:93 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
(d),本文著重基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,以文本分類任務(wù)為目標(biāo),研究一種以fastText[4]模型為基礎(chǔ)的新型神經(jīng)網(wǎng)絡(luò)NNF及其可解釋性
電子科技大學(xué)碩士學(xué)位論文82.1.2深度神經(jīng)網(wǎng)絡(luò)的特點(diǎn)誠(chéng)然,與日俱增的數(shù)據(jù)量、模型規(guī)模以及輸出結(jié)果精度成就了深度神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用和大規(guī)模普及。深度神經(jīng)網(wǎng)絡(luò)特點(diǎn)可主要?dú)w結(jié)如下:非線性變換。諸如矩陣分解、分解機(jī)、稀疏線性模型之類的常規(guī)方法本質(zhì)上是線性模型,而作為這些傳統(tǒng)模型基礎(chǔ)的線性假設(shè)往往過(guò)于簡(jiǎn)單,并極大地限制其建模的表達(dá)性。與線性模型相反,深度神經(jīng)網(wǎng)絡(luò)能夠利用諸如sigmoid、tanh和relu等激活函數(shù)對(duì)數(shù)據(jù)進(jìn)行非線性建模,如圖2-2所示。圖2-2三種典型的激活函數(shù)圖像示意(a)Sigmoid函數(shù):k-e11;(b)tanh函數(shù):kke1e122;(c)ReLU函數(shù):)0()0(0kkk(c)(a)(b)
第三章神經(jīng)網(wǎng)絡(luò)及其可解釋性25子網(wǎng)絡(luò)對(duì)應(yīng)負(fù)責(zé)一個(gè)特定的子任務(wù),該模型在功能和結(jié)構(gòu)上都是可區(qū)分的;(3)與隨機(jī)森林不同,該模型具有更強(qiáng)的可擴(kuò)展性,且基于fastText模型的特點(diǎn),該模型可快速解決文本數(shù)據(jù)的分類問(wèn)題;(4)一旦模型完成了訓(xùn)練,一個(gè)可解釋的機(jī)制就已經(jīng)存在了,因?yàn)楦黝悇e信息在各子網(wǎng)絡(luò)中,均被很好地分開了。應(yīng)該注意到,之前發(fā)布的一些類似的模型有不同的訓(xùn)練方式。例如,這些模型將首先對(duì)數(shù)據(jù)進(jìn)行多個(gè)循環(huán)的洗牌和子采樣,然后基于這些子數(shù)據(jù)集建立每個(gè)神經(jīng)網(wǎng)絡(luò),這對(duì)可解釋模型來(lái)說(shuō)是一個(gè)災(zāi)難。由于訓(xùn)練數(shù)據(jù)混亂,無(wú)法區(qū)分它在每個(gè)網(wǎng)絡(luò)中學(xué)到了什么。此外,投票機(jī)制使得預(yù)測(cè)過(guò)程更加混亂,甚至可能因?yàn)殡S機(jī)子樣本而導(dǎo)致非常冗長(zhǎng)的結(jié)果。3.2.4實(shí)驗(yàn)結(jié)果及分析實(shí)驗(yàn)選取了THUCNews的一個(gè)子集進(jìn)行訓(xùn)練和測(cè)試。使用了其中的八個(gè)類別,每個(gè)分類下有6500條短文本數(shù)據(jù)。劃分訓(xùn)練集為5000*8,驗(yàn)證集為500*8,測(cè)試集為1000*8。如圖3-4(a)和3-4(c)所示,在相同的數(shù)據(jù)集下,NNF比f(wàn)astText有更高的隱含層輸入層輸出層子網(wǎng)絡(luò)1......隱含層輸入層輸出層子網(wǎng)絡(luò)2隱含層輸入層輸出層子網(wǎng)絡(luò)N圖3-3NNF網(wǎng)絡(luò)結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]A Survey about Algorithms Utilized by Focused Web Crawler[J]. Yong-Bin Yu,Shi-Lei Huang,Nyima Tashi,Huan Zhang,Fei Lei,Lin-Yang Wu. Journal of Electronic Science and Technology. 2018(02)
[2]數(shù)據(jù)挖掘中分類算法綜述[J]. 李玲俐. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(04)
本文編號(hào):3505095
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:93 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
(d),本文著重基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,以文本分類任務(wù)為目標(biāo),研究一種以fastText[4]模型為基礎(chǔ)的新型神經(jīng)網(wǎng)絡(luò)NNF及其可解釋性
電子科技大學(xué)碩士學(xué)位論文82.1.2深度神經(jīng)網(wǎng)絡(luò)的特點(diǎn)誠(chéng)然,與日俱增的數(shù)據(jù)量、模型規(guī)模以及輸出結(jié)果精度成就了深度神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用和大規(guī)模普及。深度神經(jīng)網(wǎng)絡(luò)特點(diǎn)可主要?dú)w結(jié)如下:非線性變換。諸如矩陣分解、分解機(jī)、稀疏線性模型之類的常規(guī)方法本質(zhì)上是線性模型,而作為這些傳統(tǒng)模型基礎(chǔ)的線性假設(shè)往往過(guò)于簡(jiǎn)單,并極大地限制其建模的表達(dá)性。與線性模型相反,深度神經(jīng)網(wǎng)絡(luò)能夠利用諸如sigmoid、tanh和relu等激活函數(shù)對(duì)數(shù)據(jù)進(jìn)行非線性建模,如圖2-2所示。圖2-2三種典型的激活函數(shù)圖像示意(a)Sigmoid函數(shù):k-e11;(b)tanh函數(shù):kke1e122;(c)ReLU函數(shù):)0()0(0kkk(c)(a)(b)
第三章神經(jīng)網(wǎng)絡(luò)及其可解釋性25子網(wǎng)絡(luò)對(duì)應(yīng)負(fù)責(zé)一個(gè)特定的子任務(wù),該模型在功能和結(jié)構(gòu)上都是可區(qū)分的;(3)與隨機(jī)森林不同,該模型具有更強(qiáng)的可擴(kuò)展性,且基于fastText模型的特點(diǎn),該模型可快速解決文本數(shù)據(jù)的分類問(wèn)題;(4)一旦模型完成了訓(xùn)練,一個(gè)可解釋的機(jī)制就已經(jīng)存在了,因?yàn)楦黝悇e信息在各子網(wǎng)絡(luò)中,均被很好地分開了。應(yīng)該注意到,之前發(fā)布的一些類似的模型有不同的訓(xùn)練方式。例如,這些模型將首先對(duì)數(shù)據(jù)進(jìn)行多個(gè)循環(huán)的洗牌和子采樣,然后基于這些子數(shù)據(jù)集建立每個(gè)神經(jīng)網(wǎng)絡(luò),這對(duì)可解釋模型來(lái)說(shuō)是一個(gè)災(zāi)難。由于訓(xùn)練數(shù)據(jù)混亂,無(wú)法區(qū)分它在每個(gè)網(wǎng)絡(luò)中學(xué)到了什么。此外,投票機(jī)制使得預(yù)測(cè)過(guò)程更加混亂,甚至可能因?yàn)殡S機(jī)子樣本而導(dǎo)致非常冗長(zhǎng)的結(jié)果。3.2.4實(shí)驗(yàn)結(jié)果及分析實(shí)驗(yàn)選取了THUCNews的一個(gè)子集進(jìn)行訓(xùn)練和測(cè)試。使用了其中的八個(gè)類別,每個(gè)分類下有6500條短文本數(shù)據(jù)。劃分訓(xùn)練集為5000*8,驗(yàn)證集為500*8,測(cè)試集為1000*8。如圖3-4(a)和3-4(c)所示,在相同的數(shù)據(jù)集下,NNF比f(wàn)astText有更高的隱含層輸入層輸出層子網(wǎng)絡(luò)1......隱含層輸入層輸出層子網(wǎng)絡(luò)2隱含層輸入層輸出層子網(wǎng)絡(luò)N圖3-3NNF網(wǎng)絡(luò)結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]A Survey about Algorithms Utilized by Focused Web Crawler[J]. Yong-Bin Yu,Shi-Lei Huang,Nyima Tashi,Huan Zhang,Fei Lei,Lin-Yang Wu. Journal of Electronic Science and Technology. 2018(02)
[2]數(shù)據(jù)挖掘中分類算法綜述[J]. 李玲俐. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(04)
本文編號(hào):3505095
本文鏈接:http://www.sikaile.net/guanlilunwen/xiangmuguanli/3505095.html
最近更新
教材專著