基于特征降維和語義拓展的短文本分類方法研究
發(fā)布時(shí)間:2021-01-09 00:52
隨著網(wǎng)絡(luò)時(shí)代的發(fā)展尤其是在在線社交的推動(dòng)下,短文本數(shù)據(jù)逐漸成為一種主流的文本形式。與傳統(tǒng)的文本形式相比,短文本的文本長度較短而數(shù)據(jù)規(guī)模大,因而高維稀疏問題是在進(jìn)行短文本數(shù)據(jù)挖掘時(shí)首先要面臨的挑戰(zhàn)。其次短文本包含的語義信息較少且信息存在歧義等問題,導(dǎo)致傳統(tǒng)的文本挖掘方法通常難以高效、準(zhǔn)確地完成分類任務(wù)。因此,如何進(jìn)一步壓縮文本的特征維度,拓展文本原有語義信息,提高短文本表示與分類性能成為短文本挖掘領(lǐng)域的研究熱點(diǎn)。本文針對(duì)短文本的高維稀疏問題開展分類方法研究,其主要工作如下:(1)針對(duì)短文本數(shù)據(jù)的高維稀疏問題,提出一種基于標(biāo)記哈希特征降維的短文本分類方法。該方法首先對(duì)待處理的短文本進(jìn)行預(yù)處理,采用改進(jìn)的jieba-fast多線程分詞來劃分詞組,同時(shí)去除停用詞等提高文本表示性能;其次,為降低海量短文本的高維問題,使用標(biāo)記的哈希映射方法將高維短文本映射至固定維度的向量空間中,以稀疏矩陣的形式存放文本內(nèi)容,并對(duì)可能產(chǎn)生歧義的文本加以區(qū)分。最后,采用隨機(jī)森林作為分類模型進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果表明:所提方法在短文本分類準(zhǔn)確度上表現(xiàn)優(yōu)異,同時(shí)在硬件消耗和模型準(zhǔn)確度上取得了良好的平衡。(2)針對(duì)短文本語義信...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
MCRM模型結(jié)構(gòu)
第二章相關(guān)工作概述11為原有文本內(nèi)容的補(bǔ)充,在一定程度上緩解了短文本數(shù)據(jù)的稀疏性。但這些方法仍然忽略了短文本的語序和短語問題,有些方法也同樣十分依賴于外部知識(shí)庫與數(shù)據(jù)集的相關(guān)性,因而在此基礎(chǔ)上進(jìn)行的特征拓展有很大的局限。同時(shí),短文本在實(shí)際應(yīng)用中的字?jǐn)?shù)分布并不規(guī)則,很多主題模型非常依賴數(shù)據(jù)的均值等統(tǒng)計(jì)信息,當(dāng)數(shù)據(jù)分布不理想時(shí),很難取得較好的分類效果。2.4基于文本分布式表示深度學(xué)習(xí)短文本分類方法深度學(xué)習(xí)作為近年來非常熱門的處理手段廣泛應(yīng)用在圖像、語音等領(lǐng)域并取得了很大的成果,其中一個(gè)尤為關(guān)鍵的原因是無論是圖像數(shù)據(jù)還是音頻數(shù)據(jù),這些原始的數(shù)據(jù)形式均為連續(xù)和稠密的,并且很容易有局部相關(guān)性。在傳統(tǒng)的文本表示方法中,高維稀疏問題是長期以來的挑戰(zhàn)。因?yàn)橐獙⑸疃葘W(xué)習(xí)應(yīng)用到短文本分類上首當(dāng)其沖需要解決的就是文本表示問題。因此有研究者們提出通過文本的分布式表示將每個(gè)詞訓(xùn)練成自定義維度的連續(xù)、稠密的向量[33]。這樣的文本向量表示相比詞袋模型的one-hot編碼方式有更好的特征表達(dá)能力。Mikolov等提出了Word2Vec模型[34]來訓(xùn)練詞向量。該方法使用了前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并提出了ContinuousBag-of-Words(CBOW)和ContinuousSkip-Gram(Skip-Gram)兩種模型訓(xùn)練方法,損失層有層次Softmax(HierarchicalSoftmax)和負(fù)采樣(NegativeSampling)兩種。圖2.2CBOW和Skip-Gram模型結(jié)構(gòu)Figure2.2CBOW&Skip-GramModelStructure對(duì)于CBOW模型而言,是去掉了一個(gè)中間詞的上下文,來預(yù)測中間的詞,與NNLM類似,但這種預(yù)測是雙向進(jìn)行的,同時(shí)去掉了非線性隱層,也就意味著預(yù)測中間詞的過程中也利用了前后詞語的信息。Skip-Gram則相反,通過中間詞來輸
K個(gè)詞屬于s個(gè)樣本;1≤s≤m。利用所述K個(gè)詞所對(duì)應(yīng)的詞頻第t次計(jì)算所述s個(gè)樣本所對(duì)應(yīng)的s個(gè)類別的基尼系數(shù)。并選取基尼指數(shù)最小值所對(duì)應(yīng)的樣本的分詞結(jié)果中屬于K個(gè)詞的詞頻作為第t次劃分CART決策樹的結(jié)點(diǎn),從而第t棵CART決策樹。將t+1賦值給t,并判斷maxt≥t并是否成立,若成立,則表示得到maxt棵CART決策樹,并集成為隨機(jī)森林;否則,返回上層。最后將新的極短文本輸入所述隨機(jī)森林中,得到maxt個(gè)分類結(jié)果,并將maxt個(gè)分類結(jié)果中出現(xiàn)次數(shù)最多的類別作為新的極短文本所屬分類。圖3.2為所提CSTF短文本分類框架圖。圖3.2CSTF算法框架圖Fig3.2FrameworkoftheCSTF3.2.2基于詞袋模型的標(biāo)記哈希特征降維模型HashingVectorizer是一種文本映射表示方法,可以在提取特征時(shí)減小特征尺寸并靈活地適應(yīng)數(shù)據(jù)集的大小,特別是對(duì)于具有非常高的尺寸和稀疏特征的短文本。哈希向量化可以將文本的高維特征映射到具有固定維數(shù)的向量空間中。Langford等提出了HashTrick[49],這是一種單向哈希方法。此方法將單詞轉(zhuǎn)換為不帶詞匯表的整數(shù)。哈希技巧生成了一個(gè)矢量化哈希表,并將特征的詞頻統(tǒng)計(jì)信息添加到相應(yīng)的哈希表位置[50]。因此,映射到該表中的數(shù)據(jù)的特征維比原始數(shù)據(jù)小得多。當(dāng)原始數(shù)據(jù)集的維數(shù)較大時(shí),可以通過此哈希映射方法將其固定。哈希映射后,有兩個(gè)原始特征可能會(huì)映射到哈希表的同一位置,這會(huì)導(dǎo)致字頻累加和特征值值變大的問題。為了解決這個(gè)問題,我們使用了改進(jìn)的HashTrick方案,稱為標(biāo)記的哈希映射(SignedHashTrick)[6]。增加了標(biāo)記的函數(shù)約束后,哈希函數(shù)的計(jì)算結(jié)果仍是無偏估計(jì),不會(huì)導(dǎo)致某些散列位置的值太大。在改進(jìn)的方法中,參數(shù)n_features的設(shè)置決定了映射后的特征尺寸,這直接關(guān)系到實(shí)際的內(nèi)存消耗。
本文編號(hào):2965645
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
MCRM模型結(jié)構(gòu)
第二章相關(guān)工作概述11為原有文本內(nèi)容的補(bǔ)充,在一定程度上緩解了短文本數(shù)據(jù)的稀疏性。但這些方法仍然忽略了短文本的語序和短語問題,有些方法也同樣十分依賴于外部知識(shí)庫與數(shù)據(jù)集的相關(guān)性,因而在此基礎(chǔ)上進(jìn)行的特征拓展有很大的局限。同時(shí),短文本在實(shí)際應(yīng)用中的字?jǐn)?shù)分布并不規(guī)則,很多主題模型非常依賴數(shù)據(jù)的均值等統(tǒng)計(jì)信息,當(dāng)數(shù)據(jù)分布不理想時(shí),很難取得較好的分類效果。2.4基于文本分布式表示深度學(xué)習(xí)短文本分類方法深度學(xué)習(xí)作為近年來非常熱門的處理手段廣泛應(yīng)用在圖像、語音等領(lǐng)域并取得了很大的成果,其中一個(gè)尤為關(guān)鍵的原因是無論是圖像數(shù)據(jù)還是音頻數(shù)據(jù),這些原始的數(shù)據(jù)形式均為連續(xù)和稠密的,并且很容易有局部相關(guān)性。在傳統(tǒng)的文本表示方法中,高維稀疏問題是長期以來的挑戰(zhàn)。因?yàn)橐獙⑸疃葘W(xué)習(xí)應(yīng)用到短文本分類上首當(dāng)其沖需要解決的就是文本表示問題。因此有研究者們提出通過文本的分布式表示將每個(gè)詞訓(xùn)練成自定義維度的連續(xù)、稠密的向量[33]。這樣的文本向量表示相比詞袋模型的one-hot編碼方式有更好的特征表達(dá)能力。Mikolov等提出了Word2Vec模型[34]來訓(xùn)練詞向量。該方法使用了前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并提出了ContinuousBag-of-Words(CBOW)和ContinuousSkip-Gram(Skip-Gram)兩種模型訓(xùn)練方法,損失層有層次Softmax(HierarchicalSoftmax)和負(fù)采樣(NegativeSampling)兩種。圖2.2CBOW和Skip-Gram模型結(jié)構(gòu)Figure2.2CBOW&Skip-GramModelStructure對(duì)于CBOW模型而言,是去掉了一個(gè)中間詞的上下文,來預(yù)測中間的詞,與NNLM類似,但這種預(yù)測是雙向進(jìn)行的,同時(shí)去掉了非線性隱層,也就意味著預(yù)測中間詞的過程中也利用了前后詞語的信息。Skip-Gram則相反,通過中間詞來輸
K個(gè)詞屬于s個(gè)樣本;1≤s≤m。利用所述K個(gè)詞所對(duì)應(yīng)的詞頻第t次計(jì)算所述s個(gè)樣本所對(duì)應(yīng)的s個(gè)類別的基尼系數(shù)。并選取基尼指數(shù)最小值所對(duì)應(yīng)的樣本的分詞結(jié)果中屬于K個(gè)詞的詞頻作為第t次劃分CART決策樹的結(jié)點(diǎn),從而第t棵CART決策樹。將t+1賦值給t,并判斷maxt≥t并是否成立,若成立,則表示得到maxt棵CART決策樹,并集成為隨機(jī)森林;否則,返回上層。最后將新的極短文本輸入所述隨機(jī)森林中,得到maxt個(gè)分類結(jié)果,并將maxt個(gè)分類結(jié)果中出現(xiàn)次數(shù)最多的類別作為新的極短文本所屬分類。圖3.2為所提CSTF短文本分類框架圖。圖3.2CSTF算法框架圖Fig3.2FrameworkoftheCSTF3.2.2基于詞袋模型的標(biāo)記哈希特征降維模型HashingVectorizer是一種文本映射表示方法,可以在提取特征時(shí)減小特征尺寸并靈活地適應(yīng)數(shù)據(jù)集的大小,特別是對(duì)于具有非常高的尺寸和稀疏特征的短文本。哈希向量化可以將文本的高維特征映射到具有固定維數(shù)的向量空間中。Langford等提出了HashTrick[49],這是一種單向哈希方法。此方法將單詞轉(zhuǎn)換為不帶詞匯表的整數(shù)。哈希技巧生成了一個(gè)矢量化哈希表,并將特征的詞頻統(tǒng)計(jì)信息添加到相應(yīng)的哈希表位置[50]。因此,映射到該表中的數(shù)據(jù)的特征維比原始數(shù)據(jù)小得多。當(dāng)原始數(shù)據(jù)集的維數(shù)較大時(shí),可以通過此哈希映射方法將其固定。哈希映射后,有兩個(gè)原始特征可能會(huì)映射到哈希表的同一位置,這會(huì)導(dǎo)致字頻累加和特征值值變大的問題。為了解決這個(gè)問題,我們使用了改進(jìn)的HashTrick方案,稱為標(biāo)記的哈希映射(SignedHashTrick)[6]。增加了標(biāo)記的函數(shù)約束后,哈希函數(shù)的計(jì)算結(jié)果仍是無偏估計(jì),不會(huì)導(dǎo)致某些散列位置的值太大。在改進(jìn)的方法中,參數(shù)n_features的設(shè)置決定了映射后的特征尺寸,這直接關(guān)系到實(shí)際的內(nèi)存消耗。
本文編號(hào):2965645
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2965645.html
最近更新
教材專著