基于深度學(xué)習(xí)的中文文本多標(biāo)簽分類研究
發(fā)布時(shí)間:2021-08-24 22:35
隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的快速發(fā)展與推廣,網(wǎng)絡(luò)中的文本信息呈現(xiàn)出爆炸性的增長(zhǎng)趨勢(shì),信息過(guò)載現(xiàn)象嚴(yán)重。為了對(duì)文本信息內(nèi)容進(jìn)行高效的管理,實(shí)現(xiàn)準(zhǔn)確地文本信息定位、文本信息過(guò)濾和文本數(shù)據(jù)的即時(shí)處理都離不開(kāi)文本分類技術(shù)的快速發(fā)展;谏疃葘W(xué)習(xí)的多標(biāo)簽文本分類方法實(shí)現(xiàn)了文本內(nèi)容標(biāo)簽的自動(dòng)化處理,可以有效地利用和管理文本信息。本文針對(duì)多標(biāo)簽文本分類任務(wù)進(jìn)行研究,獲取帶標(biāo)簽的文本數(shù)據(jù)為后續(xù)多標(biāo)簽文本分類研究提供實(shí)驗(yàn)數(shù)據(jù)支持。數(shù)據(jù)來(lái)源于悟空問(wèn)答網(wǎng)站和百度知道網(wǎng)站。由于網(wǎng)站上的數(shù)據(jù)是用戶根據(jù)自己的需求進(jìn)行提問(wèn)和標(biāo)簽標(biāo)注,因此數(shù)據(jù)具有多樣性、噪聲大等特點(diǎn)。為確保通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取的多標(biāo)簽文本數(shù)據(jù)的可用性,首先對(duì)數(shù)據(jù)進(jìn)行清洗,包括敏感詞過(guò)濾、長(zhǎng)度比過(guò)濾、零寬字符過(guò)濾、無(wú)意義文本過(guò)濾和語(yǔ)義完整性判斷;而后采用Niutrans分詞工具對(duì)文本數(shù)據(jù)進(jìn)行分詞處理;最后通過(guò)word2vec工具對(duì)分詞后的數(shù)進(jìn)行詞向量轉(zhuǎn)換,便于輸入模型進(jìn)行訓(xùn)練。TextRNN和Text CNN作為解決多標(biāo)簽文本分類問(wèn)題的主要模型架構(gòu),存在各自的優(yōu)點(diǎn)和局限性。由于Text RNN模型采用Bilstm結(jié)構(gòu),后一個(gè)時(shí)間步的輸出依賴于前一個(gè)時(shí)間步...
【文章來(lái)源】:遼寧科技大學(xué)遼寧省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文邏輯框架圖
遼寧科技大學(xué)碩士學(xué)位論文92.1.2深度學(xué)習(xí)文本分類過(guò)程在研究文本分類過(guò)程中,使用深度學(xué)習(xí)的方法對(duì)文本分類技術(shù)領(lǐng)域的研究涵蓋多個(gè)分支科目。機(jī)器學(xué)習(xí)和模式識(shí)別的過(guò)程結(jié)合也就是多標(biāo)簽文本分類的過(guò)程。圖2.1為基于深度學(xué)習(xí)方法的多標(biāo)簽文本分類的基本過(guò)程,從圖2.1中可知,深度學(xué)習(xí)模型在多標(biāo)簽文本分類任務(wù)中,首先將帶標(biāo)簽的文本數(shù)據(jù)進(jìn)行預(yù)處理,而后將文本向量化表示。通過(guò)對(duì)文本特征降維,獲取對(duì)分類結(jié)果影響較大的特征,最后通過(guò)分類器分類輸出進(jìn)行性能評(píng)價(jià)。訓(xùn)練模型的分類性能由測(cè)試集對(duì)模型進(jìn)行測(cè)試,將測(cè)試集中未知類別的文本數(shù)據(jù)經(jīng)過(guò)預(yù)處理得到文本表示后輸入到多標(biāo)簽文本分類模型中,經(jīng)過(guò)分類器輸出文本數(shù)據(jù)所屬的標(biāo)簽類別,將輸出結(jié)果與真實(shí)的結(jié)果進(jìn)行對(duì)比衡量,對(duì)模型的準(zhǔn)確性進(jìn)行最終評(píng)估。圖2.1文本分類流程Fig.2.1Textclassificationprocess多標(biāo)簽文本分類的流程由訓(xùn)練和測(cè)試兩個(gè)部分組成,訓(xùn)練階段與模型分類的整體性能相關(guān),因此尤為重要。而測(cè)試階段是衡量模型準(zhǔn)確率的標(biāo)準(zhǔn)。在訓(xùn)練階段,主要由數(shù)據(jù)預(yù)處理、文本數(shù)據(jù)表示、數(shù)據(jù)特征及分類器的選擇、文本分類的準(zhǔn)確率性能評(píng)價(jià)組成。具體處理過(guò)程如下所示:(1)數(shù)據(jù)預(yù)處理:是對(duì)文本數(shù)據(jù)進(jìn)行細(xì)致的清洗和處理、數(shù)據(jù)清洗包括對(duì)不相干的內(nèi)容過(guò)濾,如:廣告信息、網(wǎng)站域名信息,敏感詞過(guò)濾、文本語(yǔ)義完整性過(guò)濾、零寬字符過(guò)濾等操作。經(jīng)過(guò)清洗后的數(shù)據(jù)進(jìn)行分詞處理,在處理中文文本數(shù)據(jù)時(shí),則需要根據(jù)語(yǔ)義進(jìn)行分詞。分詞后的數(shù)據(jù)需要進(jìn)行去除停用詞等一系列操作,保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)經(jīng)過(guò)預(yù)處理操作之后,使得文本數(shù)據(jù)的質(zhì)量有所
2.相關(guān)工作12圖2.2Skip-Gram模型結(jié)構(gòu)圖2.3CBOW模型結(jié)構(gòu)Fig.2.2Skip-GrammodelstructureFig.2.3CBOWmodelstructure關(guān)于Skip-gram和CBOW兩個(gè)模型,作者M(jìn)ikolov為了提高訓(xùn)練的效率,提出了兩種優(yōu)化方法:層次Softmax和負(fù)采樣。(1)層次Softmax:Bengio早在2005年時(shí)將層次Softmax[32]引入到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中。它的基本思想是將復(fù)雜的歸一化概率分解為單個(gè)條件概率的乘積形式:)),(),...,(|)(()|(111contextvbvbvbpcontextvpmiii(2.3)層次Softmax策略是優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸出層,輸出層利用哈夫曼樹(shù)計(jì)算概率值。所謂哈夫曼樹(shù),實(shí)質(zhì)就是二叉樹(shù),將其結(jié)果作為輸出,詞頻越高的詞,距離根節(jié)點(diǎn)就越近。將每一層的條件概率轉(zhuǎn)為二分類問(wèn)題,用二項(xiàng)Logistic回歸函數(shù)對(duì)模型進(jìn)行擬合,將目標(biāo)概率的計(jì)算復(fù)雜度從由V降低到了logV的量級(jí)。(2)負(fù)采樣:負(fù)采樣[33]是指在訓(xùn)練神經(jīng)網(wǎng)絡(luò)過(guò)程中,模型接受每一個(gè)訓(xùn)練樣本時(shí),需要通過(guò)調(diào)整所有神經(jīng)單元權(quán)重參數(shù),使得神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的準(zhǔn)確率更高。并且詞匯表的大小決定了神經(jīng)網(wǎng)絡(luò)模型會(huì)有非常大的權(quán)重參數(shù),所有的權(quán)重參數(shù)隨著數(shù)十億訓(xùn)練樣本不斷調(diào)整,這個(gè)過(guò)程不僅耗時(shí),而且影響模型分類的準(zhǔn)確性。因此采用負(fù)采樣方法的原理,使得單個(gè)訓(xùn)練文本數(shù)據(jù)只優(yōu)化部分的權(quán)重參數(shù),從而降低梯度下降過(guò)程中的計(jì)算量。負(fù)采樣的最終目的就是用來(lái)加快模型的訓(xùn)練速度并且使得詞向量得到更完整的表示,隨機(jī)負(fù)采樣能大幅度提高模型性能和計(jì)算效率。
【參考文獻(xiàn)】:
期刊論文
[1]基于Dopout與ADAM優(yōu)化器的改進(jìn)CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(07)
[2]基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術(shù). 2018(03)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計(jì)算機(jī)與現(xiàn)代化. 2017(04)
[4]《反不正當(dāng)競(jìng)爭(zhēng)法》一般條款在互聯(lián)網(wǎng)領(lǐng)域的適用[J]. 蔣舸. 電子知識(shí)產(chǎn)權(quán). 2014(10)
[5]論爬蟲(chóng)協(xié)議的法律性質(zhì)[J]. 楊華權(quán),曲三強(qiáng). 法律適用. 2013(04)
[6]基于HTMLParser和HttpClient的網(wǎng)絡(luò)爬蟲(chóng)原理與實(shí)現(xiàn)[J]. 張亮. 電腦編程技巧與維護(hù). 2011(20)
[7]網(wǎng)絡(luò)爬蟲(chóng)的優(yōu)化策略探略[J]. 李志義. 現(xiàn)代情報(bào). 2011(10)
[8]高性能網(wǎng)絡(luò)爬蟲(chóng):研究綜述[J]. 周德懋,李舟軍. 計(jì)算機(jī)科學(xué). 2009(08)
[9]幾種文本特征降維方法的比較分析[J]. 高茂庭,王正歐. 計(jì)算機(jī)工程與應(yīng)用. 2006(30)
[10]基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 蘇金樹(shù),張博鋒,徐昕. 軟件學(xué)報(bào). 2006(09)
博士論文
[1]漢語(yǔ)文本自動(dòng)分類[D]. 郝立柱.吉林大學(xué) 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[2]EM算法及其應(yīng)用[D]. 張宏?yáng)|.山東大學(xué) 2014
[3]論Robots協(xié)議下搜索引擎數(shù)據(jù)挖掘行為的法律責(zé)任[D]. 陳笑.北京郵電大學(xué) 2014
本文編號(hào):3360845
【文章來(lái)源】:遼寧科技大學(xué)遼寧省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文邏輯框架圖
遼寧科技大學(xué)碩士學(xué)位論文92.1.2深度學(xué)習(xí)文本分類過(guò)程在研究文本分類過(guò)程中,使用深度學(xué)習(xí)的方法對(duì)文本分類技術(shù)領(lǐng)域的研究涵蓋多個(gè)分支科目。機(jī)器學(xué)習(xí)和模式識(shí)別的過(guò)程結(jié)合也就是多標(biāo)簽文本分類的過(guò)程。圖2.1為基于深度學(xué)習(xí)方法的多標(biāo)簽文本分類的基本過(guò)程,從圖2.1中可知,深度學(xué)習(xí)模型在多標(biāo)簽文本分類任務(wù)中,首先將帶標(biāo)簽的文本數(shù)據(jù)進(jìn)行預(yù)處理,而后將文本向量化表示。通過(guò)對(duì)文本特征降維,獲取對(duì)分類結(jié)果影響較大的特征,最后通過(guò)分類器分類輸出進(jìn)行性能評(píng)價(jià)。訓(xùn)練模型的分類性能由測(cè)試集對(duì)模型進(jìn)行測(cè)試,將測(cè)試集中未知類別的文本數(shù)據(jù)經(jīng)過(guò)預(yù)處理得到文本表示后輸入到多標(biāo)簽文本分類模型中,經(jīng)過(guò)分類器輸出文本數(shù)據(jù)所屬的標(biāo)簽類別,將輸出結(jié)果與真實(shí)的結(jié)果進(jìn)行對(duì)比衡量,對(duì)模型的準(zhǔn)確性進(jìn)行最終評(píng)估。圖2.1文本分類流程Fig.2.1Textclassificationprocess多標(biāo)簽文本分類的流程由訓(xùn)練和測(cè)試兩個(gè)部分組成,訓(xùn)練階段與模型分類的整體性能相關(guān),因此尤為重要。而測(cè)試階段是衡量模型準(zhǔn)確率的標(biāo)準(zhǔn)。在訓(xùn)練階段,主要由數(shù)據(jù)預(yù)處理、文本數(shù)據(jù)表示、數(shù)據(jù)特征及分類器的選擇、文本分類的準(zhǔn)確率性能評(píng)價(jià)組成。具體處理過(guò)程如下所示:(1)數(shù)據(jù)預(yù)處理:是對(duì)文本數(shù)據(jù)進(jìn)行細(xì)致的清洗和處理、數(shù)據(jù)清洗包括對(duì)不相干的內(nèi)容過(guò)濾,如:廣告信息、網(wǎng)站域名信息,敏感詞過(guò)濾、文本語(yǔ)義完整性過(guò)濾、零寬字符過(guò)濾等操作。經(jīng)過(guò)清洗后的數(shù)據(jù)進(jìn)行分詞處理,在處理中文文本數(shù)據(jù)時(shí),則需要根據(jù)語(yǔ)義進(jìn)行分詞。分詞后的數(shù)據(jù)需要進(jìn)行去除停用詞等一系列操作,保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)經(jīng)過(guò)預(yù)處理操作之后,使得文本數(shù)據(jù)的質(zhì)量有所
2.相關(guān)工作12圖2.2Skip-Gram模型結(jié)構(gòu)圖2.3CBOW模型結(jié)構(gòu)Fig.2.2Skip-GrammodelstructureFig.2.3CBOWmodelstructure關(guān)于Skip-gram和CBOW兩個(gè)模型,作者M(jìn)ikolov為了提高訓(xùn)練的效率,提出了兩種優(yōu)化方法:層次Softmax和負(fù)采樣。(1)層次Softmax:Bengio早在2005年時(shí)將層次Softmax[32]引入到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型中。它的基本思想是將復(fù)雜的歸一化概率分解為單個(gè)條件概率的乘積形式:)),(),...,(|)(()|(111contextvbvbvbpcontextvpmiii(2.3)層次Softmax策略是優(yōu)化神經(jīng)網(wǎng)絡(luò)模型的輸出層,輸出層利用哈夫曼樹(shù)計(jì)算概率值。所謂哈夫曼樹(shù),實(shí)質(zhì)就是二叉樹(shù),將其結(jié)果作為輸出,詞頻越高的詞,距離根節(jié)點(diǎn)就越近。將每一層的條件概率轉(zhuǎn)為二分類問(wèn)題,用二項(xiàng)Logistic回歸函數(shù)對(duì)模型進(jìn)行擬合,將目標(biāo)概率的計(jì)算復(fù)雜度從由V降低到了logV的量級(jí)。(2)負(fù)采樣:負(fù)采樣[33]是指在訓(xùn)練神經(jīng)網(wǎng)絡(luò)過(guò)程中,模型接受每一個(gè)訓(xùn)練樣本時(shí),需要通過(guò)調(diào)整所有神經(jīng)單元權(quán)重參數(shù),使得神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的準(zhǔn)確率更高。并且詞匯表的大小決定了神經(jīng)網(wǎng)絡(luò)模型會(huì)有非常大的權(quán)重參數(shù),所有的權(quán)重參數(shù)隨著數(shù)十億訓(xùn)練樣本不斷調(diào)整,這個(gè)過(guò)程不僅耗時(shí),而且影響模型分類的準(zhǔn)確性。因此采用負(fù)采樣方法的原理,使得單個(gè)訓(xùn)練文本數(shù)據(jù)只優(yōu)化部分的權(quán)重參數(shù),從而降低梯度下降過(guò)程中的計(jì)算量。負(fù)采樣的最終目的就是用來(lái)加快模型的訓(xùn)練速度并且使得詞向量得到更完整的表示,隨機(jī)負(fù)采樣能大幅度提高模型性能和計(jì)算效率。
【參考文獻(xiàn)】:
期刊論文
[1]基于Dopout與ADAM優(yōu)化器的改進(jìn)CNN算法[J]. 楊觀賜,楊靜,李少波,胡建軍. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(07)
[2]基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 劉婷婷,朱文東,劉廣一. 電力信息與通信技術(shù). 2018(03)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計(jì)算機(jī)與現(xiàn)代化. 2017(04)
[4]《反不正當(dāng)競(jìng)爭(zhēng)法》一般條款在互聯(lián)網(wǎng)領(lǐng)域的適用[J]. 蔣舸. 電子知識(shí)產(chǎn)權(quán). 2014(10)
[5]論爬蟲(chóng)協(xié)議的法律性質(zhì)[J]. 楊華權(quán),曲三強(qiáng). 法律適用. 2013(04)
[6]基于HTMLParser和HttpClient的網(wǎng)絡(luò)爬蟲(chóng)原理與實(shí)現(xiàn)[J]. 張亮. 電腦編程技巧與維護(hù). 2011(20)
[7]網(wǎng)絡(luò)爬蟲(chóng)的優(yōu)化策略探略[J]. 李志義. 現(xiàn)代情報(bào). 2011(10)
[8]高性能網(wǎng)絡(luò)爬蟲(chóng):研究綜述[J]. 周德懋,李舟軍. 計(jì)算機(jī)科學(xué). 2009(08)
[9]幾種文本特征降維方法的比較分析[J]. 高茂庭,王正歐. 計(jì)算機(jī)工程與應(yīng)用. 2006(30)
[10]基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J]. 蘇金樹(shù),張博鋒,徐昕. 軟件學(xué)報(bào). 2006(09)
博士論文
[1]漢語(yǔ)文本自動(dòng)分類[D]. 郝立柱.吉林大學(xué) 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[2]EM算法及其應(yīng)用[D]. 張宏?yáng)|.山東大學(xué) 2014
[3]論Robots協(xié)議下搜索引擎數(shù)據(jù)挖掘行為的法律責(zé)任[D]. 陳笑.北京郵電大學(xué) 2014
本文編號(hào):3360845
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3360845.html
最近更新
教材專著