基于fastText的新聞文本分類研究及在農(nóng)業(yè)新聞中的應(yīng)用
發(fā)布時間:2021-04-16 14:15
互聯(lián)網(wǎng)的飛速發(fā)展使得數(shù)據(jù)大量且迅速地增長,其中大量數(shù)據(jù)是以文本形式存儲的,文本分類作為最常見的文本挖掘技術(shù)對于在大量雜亂的文本數(shù)據(jù)中發(fā)現(xiàn)知識具有重要意義。目前文本分類的方法主要有基于語義規(guī)則的分類方法、基于傳統(tǒng)機器學習的分類方法以及基于深度學習的分類方法三種方法。其中,fastText快速文本分類模型是最近提出的能夠快速高效進行文本分類的淺層神經(jīng)網(wǎng)絡(luò)模型,它可以在取得和深度學習相當?shù)姆诸愋Ч耐瑫r擁有比深度學習更低的訓練成本,所以在工業(yè)界應(yīng)用廣泛。fastText通過n-gram進行特征增強來獲取局部的詞序信息,但是經(jīng)過n-gram特征增強后會產(chǎn)生一些無意義的低頻詞,干擾文本分類的效果。同時,對于新聞文本的具體問題,新聞標題往往是一篇新聞的高度概括,在fastText模型中是將整篇文章的詞向量進行累加取平均值作為一篇文章的向量表示,沒有考慮到新聞標題在表示一篇文章時應(yīng)占有更高的權(quán)重。所以,本文針對以上問題對fastText模型主要進行了“對重要詞進行加權(quán)篩選”和“融合新聞標題”兩種改進分別提出算法CF-fastText和算法Title-fastText,同時將這兩種改進方法融合提出算法...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學位級別】:碩士
【部分圖文】:
CBOW和Skip-gram結(jié)構(gòu)
本分類的基準是將句子用詞袋模型(BOW)表示,然后訓練一個比如邏輯回歸或者支持向量機。但是,這些線性分類器在類和特其泛化性能減弱。常用解決這種問題的方法是分解為低秩矩陣或在神經(jīng)網(wǎng)絡(luò)中,參數(shù)可以通過隱藏層進行共享。 2016 年由 Mikolov 提出,由 FaceBook 公司推出的快速文本分個只有一層隱藏層的簡單的 fastText 結(jié)構(gòu),它將單詞表示的平均,送入一個線性的分類器。這個結(jié)構(gòu)與 CBOW 架構(gòu)很相似,不像 CBOW 通過上下文的詞來預(yù)測中間詞而是預(yù)測標簽,這個標類中預(yù)定義的類別。fastText 將單詞序列作為輸入,并且用 softm這些類別的概率分布。fastText 與 word2vec 類似,都是使用隨機行模型訓練。
圖 2.3 Django 的 MTV 模型組織結(jié)構(gòu)小結(jié)要對相關(guān)理論和技術(shù)進行了介紹,包括文本預(yù)處理、文本特征速文本分類方法、文本分類評價指標以及實現(xiàn)該文本分類系統(tǒng)的 D文本預(yù)處理技術(shù)主要包括分詞及去停用詞,文本特征提取介紹了以及分布式的詞向量表示。之后介紹了 fastText 快速文本分類算法最后對 DjangoWeb 框架的基礎(chǔ)知識和體系結(jié)構(gòu)進行了簡要說明。紹了全文的理論基礎(chǔ)和技術(shù)框架,為后文的研究和系統(tǒng)實現(xiàn)提供了
本文編號:3141587
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:50 頁
【學位級別】:碩士
【部分圖文】:
CBOW和Skip-gram結(jié)構(gòu)
本分類的基準是將句子用詞袋模型(BOW)表示,然后訓練一個比如邏輯回歸或者支持向量機。但是,這些線性分類器在類和特其泛化性能減弱。常用解決這種問題的方法是分解為低秩矩陣或在神經(jīng)網(wǎng)絡(luò)中,參數(shù)可以通過隱藏層進行共享。 2016 年由 Mikolov 提出,由 FaceBook 公司推出的快速文本分個只有一層隱藏層的簡單的 fastText 結(jié)構(gòu),它將單詞表示的平均,送入一個線性的分類器。這個結(jié)構(gòu)與 CBOW 架構(gòu)很相似,不像 CBOW 通過上下文的詞來預(yù)測中間詞而是預(yù)測標簽,這個標類中預(yù)定義的類別。fastText 將單詞序列作為輸入,并且用 softm這些類別的概率分布。fastText 與 word2vec 類似,都是使用隨機行模型訓練。
圖 2.3 Django 的 MTV 模型組織結(jié)構(gòu)小結(jié)要對相關(guān)理論和技術(shù)進行了介紹,包括文本預(yù)處理、文本特征速文本分類方法、文本分類評價指標以及實現(xiàn)該文本分類系統(tǒng)的 D文本預(yù)處理技術(shù)主要包括分詞及去停用詞,文本特征提取介紹了以及分布式的詞向量表示。之后介紹了 fastText 快速文本分類算法最后對 DjangoWeb 框架的基礎(chǔ)知識和體系結(jié)構(gòu)進行了簡要說明。紹了全文的理論基礎(chǔ)和技術(shù)框架,為后文的研究和系統(tǒng)實現(xiàn)提供了
本文編號:3141587
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3141587.html
最近更新
教材專著