基于極限學(xué)習(xí)機(jī)的文本分類方法研究
發(fā)布時(shí)間:2021-06-13 17:55
極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)作為一種學(xué)習(xí)高效的單隱層前饋神經(jīng)網(wǎng)路學(xué)習(xí)算法,受到越來越多研究人員的關(guān)注。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法需要對(duì)大量的參數(shù)進(jìn)行復(fù)雜的調(diào)整,從模型最后一層往前傳遞誤差時(shí)容易過擬合、陷入局部最優(yōu)解。支持向量機(jī)具有其理論優(yōu)勢(shì),但它僅適用于二元分類問題,不適合當(dāng)前大數(shù)據(jù)量的文本分類和管理。極限學(xué)習(xí)機(jī)參數(shù)簡(jiǎn)單無需人工設(shè)置,在模型的訓(xùn)練中隨機(jī)設(shè)置極限學(xué)習(xí)機(jī)的輸入權(quán)值和隱藏層的閾值即可以產(chǎn)生模型的最優(yōu)解。極限學(xué)習(xí)機(jī)具有學(xué)習(xí)速度快且泛化性能好的特點(diǎn),在大規(guī)模樣本學(xué)習(xí)以及實(shí)時(shí)處理等問題中表現(xiàn)出巨大的潛力。本文在前人研究工作的基礎(chǔ)上,圍繞文本分類和極限學(xué)習(xí)機(jī)的若干理論和實(shí)際問題展開研究。論文主要的工作包括以下幾個(gè)方面:(1)當(dāng)訓(xùn)練樣本中異常值過多時(shí),傳統(tǒng)的極限學(xué)習(xí)機(jī)會(huì)發(fā)生過擬合。本文提出了一種新穎的混合距離和密度的模糊隸屬度函數(shù)自適應(yīng)模糊極限學(xué)習(xí)機(jī)模型。傳統(tǒng)密度隸屬度函數(shù)是基于樣本和它最近的K個(gè)樣本之間的密度,然而這種方法不能真實(shí)反應(yīng)出樣本的實(shí)際分布。通過基于量子諧振子模型的聚類算法來無監(jiān)督地獲得樣本所屬的類別以及在該類別中樣本和其他樣本之間的密...
【文章來源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院重慶綠色智能技術(shù)研究院)重慶市
【文章頁(yè)數(shù)】:139 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.2?LDA模型圖形化表示??
?::」」M??圖2.2?LDA模型圖形化表示??研宄人員發(fā)現(xiàn)那些不在訓(xùn)練文本數(shù)據(jù)集中但是在測(cè)試文本數(shù)據(jù)集中的特征詞??對(duì)于改善分類性能有非常大的幫助。gLDA模型對(duì)LDA進(jìn)行了改進(jìn),在該模型中??每一個(gè)文本分布的概率是由最大相關(guān)類別的文本產(chǎn)生的m。通過一個(gè)大規(guī)模的訓(xùn)練??過的文本數(shù)據(jù)集應(yīng)用到一個(gè)小的文本數(shù)據(jù)集上來對(duì)單詞-主題的映射性能進(jìn)行改??進(jìn)。Multi-LDA?Boost是把boosting策略應(yīng)用到LDA中的一個(gè)新穎的分類器,該模??型從很多不同參數(shù)的模型中選擇一個(gè)最佳方案,通過加權(quán)的方法來提高分類的性??能[82]。?Li,?Huang和Zhu在2010年提出了兩個(gè)聯(lián)合模型Sentiment-LDA和??Dependency-sentiment-LDA用來發(fā)現(xiàn)文本中的正語(yǔ)義和負(fù)語(yǔ)義[831。Zhao等人2010??提出了?MaxEnt-LDA模型,該模型把最大熵和LDA結(jié)合在一起生成一個(gè)復(fù)合模型,??該模型通過一個(gè)指示變量將兩個(gè)模型結(jié)合到一起,該變量從一系列參數(shù)的多項(xiàng)式??的分布中得到,最大熵算法用來學(xué)習(xí)其中用到的訓(xùn)練樣本的參數(shù)[84]。Sauper,??Haghighi和Barzilay于2011年提出了?HMM-LDA模型
從模型最后一層往前傳遞誤差時(shí),容易過擬合,陷入局部最優(yōu)解。BPNN在文本分??類中也有著相應(yīng)的應(yīng)用E51]。??BP反向傳播網(wǎng)絡(luò)結(jié)構(gòu)如圖2.4所示。反向傳播網(wǎng)絡(luò)一共有三層,分別是輸入??層,隱藏層和輸出層。兩個(gè)相鄰的層是完全相互連接,并且每個(gè)連接將權(quán)重表示??為的a參數(shù)。BP的學(xué)習(xí)過程就是通過對(duì)每一個(gè)訓(xùn)練樣本求取目標(biāo)類別和判定類別??之間誤差的最小值來不斷更新參數(shù)〇的過程。BP輸入層的節(jié)點(diǎn)數(shù)量是和具體分類??麵康??輸入展?一,詩(shī)k?h'、??><?麵??….??y/L—J?{?\?'、.??w??圖2.4反向傳播神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖??任務(wù)中的訓(xùn)練樣本的特征數(shù)量相關(guān)的,即每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)著樣本特征的每一個(gè)維??度。輸出節(jié)點(diǎn)的數(shù)量是和分類任務(wù)中所有樣本的類別數(shù)量相關(guān)的。隱藏層的節(jié)點(diǎn)??數(shù)量是可以人為設(shè)定的,隱藏層節(jié)點(diǎn)的數(shù)量設(shè)定沒有一個(gè)標(biāo)準(zhǔn)規(guī)則的。在分類過??程中各層做起的作用分別是:輸入層接收樣本特征向量以便BP完成分類任務(wù);隱??藏層用來定義訓(xùn)練誤差并對(duì)模型進(jìn)行學(xué)習(xí);輸出層用來產(chǎn)生最后的分類結(jié)果。??表2.1顯示了?BP神經(jīng)網(wǎng)絡(luò)中各層的概念和各層節(jié)點(diǎn)的值。假設(shè)輸入樣本的特??征向量為義=|3七…\]。表中每一列對(duì)應(yīng)每個(gè)層,每列中的第一行表示的是該??27??
【參考文獻(xiàn)】:
期刊論文
[1]基于樣本熵與ELM-Adaboost的懸架減振器異響聲品質(zhì)預(yù)測(cè)[J]. 黃海波,李人憲,黃曉蓉,楊明亮,丁渭平. 振動(dòng)與沖擊. 2016(13)
[2]基于核超限學(xué)習(xí)機(jī)的中文文本情感分類[J]. 于海燕,陳麗如,鄭文斌. 中國(guó)計(jì)量學(xué)院學(xué)報(bào). 2016(02)
[3]一種用于車牌定位的改進(jìn)BP神經(jīng)網(wǎng)絡(luò)方法[J]. 趙濤,楊曉莉,王緒本,張娜. 計(jì)算機(jī)仿真. 2007(02)
[4]基于模糊聚類的BP神經(jīng)網(wǎng)絡(luò)模型研究及應(yīng)用[J]. 何勇,項(xiàng)利國(guó). 系統(tǒng)工程理論與實(shí)踐. 2004(02)
碩士論文
[1]基于粒子群優(yōu)化的極限學(xué)習(xí)機(jī)的XML文檔分類中的研究與應(yīng)用[D]. 李永強(qiáng).東北大學(xué) 2013
本文編號(hào):3228028
【文章來源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院重慶綠色智能技術(shù)研究院)重慶市
【文章頁(yè)數(shù)】:139 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.2?LDA模型圖形化表示??
?::」」M??圖2.2?LDA模型圖形化表示??研宄人員發(fā)現(xiàn)那些不在訓(xùn)練文本數(shù)據(jù)集中但是在測(cè)試文本數(shù)據(jù)集中的特征詞??對(duì)于改善分類性能有非常大的幫助。gLDA模型對(duì)LDA進(jìn)行了改進(jìn),在該模型中??每一個(gè)文本分布的概率是由最大相關(guān)類別的文本產(chǎn)生的m。通過一個(gè)大規(guī)模的訓(xùn)練??過的文本數(shù)據(jù)集應(yīng)用到一個(gè)小的文本數(shù)據(jù)集上來對(duì)單詞-主題的映射性能進(jìn)行改??進(jìn)。Multi-LDA?Boost是把boosting策略應(yīng)用到LDA中的一個(gè)新穎的分類器,該模??型從很多不同參數(shù)的模型中選擇一個(gè)最佳方案,通過加權(quán)的方法來提高分類的性??能[82]。?Li,?Huang和Zhu在2010年提出了兩個(gè)聯(lián)合模型Sentiment-LDA和??Dependency-sentiment-LDA用來發(fā)現(xiàn)文本中的正語(yǔ)義和負(fù)語(yǔ)義[831。Zhao等人2010??提出了?MaxEnt-LDA模型,該模型把最大熵和LDA結(jié)合在一起生成一個(gè)復(fù)合模型,??該模型通過一個(gè)指示變量將兩個(gè)模型結(jié)合到一起,該變量從一系列參數(shù)的多項(xiàng)式??的分布中得到,最大熵算法用來學(xué)習(xí)其中用到的訓(xùn)練樣本的參數(shù)[84]。Sauper,??Haghighi和Barzilay于2011年提出了?HMM-LDA模型
從模型最后一層往前傳遞誤差時(shí),容易過擬合,陷入局部最優(yōu)解。BPNN在文本分??類中也有著相應(yīng)的應(yīng)用E51]。??BP反向傳播網(wǎng)絡(luò)結(jié)構(gòu)如圖2.4所示。反向傳播網(wǎng)絡(luò)一共有三層,分別是輸入??層,隱藏層和輸出層。兩個(gè)相鄰的層是完全相互連接,并且每個(gè)連接將權(quán)重表示??為的a參數(shù)。BP的學(xué)習(xí)過程就是通過對(duì)每一個(gè)訓(xùn)練樣本求取目標(biāo)類別和判定類別??之間誤差的最小值來不斷更新參數(shù)〇的過程。BP輸入層的節(jié)點(diǎn)數(shù)量是和具體分類??麵康??輸入展?一,詩(shī)k?h'、??><?麵??….??y/L—J?{?\?'、.??w??圖2.4反向傳播神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖??任務(wù)中的訓(xùn)練樣本的特征數(shù)量相關(guān)的,即每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)著樣本特征的每一個(gè)維??度。輸出節(jié)點(diǎn)的數(shù)量是和分類任務(wù)中所有樣本的類別數(shù)量相關(guān)的。隱藏層的節(jié)點(diǎn)??數(shù)量是可以人為設(shè)定的,隱藏層節(jié)點(diǎn)的數(shù)量設(shè)定沒有一個(gè)標(biāo)準(zhǔn)規(guī)則的。在分類過??程中各層做起的作用分別是:輸入層接收樣本特征向量以便BP完成分類任務(wù);隱??藏層用來定義訓(xùn)練誤差并對(duì)模型進(jìn)行學(xué)習(xí);輸出層用來產(chǎn)生最后的分類結(jié)果。??表2.1顯示了?BP神經(jīng)網(wǎng)絡(luò)中各層的概念和各層節(jié)點(diǎn)的值。假設(shè)輸入樣本的特??征向量為義=|3七…\]。表中每一列對(duì)應(yīng)每個(gè)層,每列中的第一行表示的是該??27??
【參考文獻(xiàn)】:
期刊論文
[1]基于樣本熵與ELM-Adaboost的懸架減振器異響聲品質(zhì)預(yù)測(cè)[J]. 黃海波,李人憲,黃曉蓉,楊明亮,丁渭平. 振動(dòng)與沖擊. 2016(13)
[2]基于核超限學(xué)習(xí)機(jī)的中文文本情感分類[J]. 于海燕,陳麗如,鄭文斌. 中國(guó)計(jì)量學(xué)院學(xué)報(bào). 2016(02)
[3]一種用于車牌定位的改進(jìn)BP神經(jīng)網(wǎng)絡(luò)方法[J]. 趙濤,楊曉莉,王緒本,張娜. 計(jì)算機(jī)仿真. 2007(02)
[4]基于模糊聚類的BP神經(jīng)網(wǎng)絡(luò)模型研究及應(yīng)用[J]. 何勇,項(xiàng)利國(guó). 系統(tǒng)工程理論與實(shí)踐. 2004(02)
碩士論文
[1]基于粒子群優(yōu)化的極限學(xué)習(xí)機(jī)的XML文檔分類中的研究與應(yīng)用[D]. 李永強(qiáng).東北大學(xué) 2013
本文編號(hào):3228028
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3228028.html
最近更新
教材專著