天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

改進的TF-IDF特征選擇和短文本分類算法研究

發(fā)布時間:2021-09-04 19:59
  隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,網(wǎng)絡很快成為互聯(lián)網(wǎng)用戶獲取信息、交流和學習的重要平臺,同時該平臺也產生了海量的文本數(shù)據(jù),這些數(shù)據(jù)內容簡短,上下文語義關聯(lián)程度大,表達方式多樣,但是蘊含大量的信息。如何處理這些短文本并從中獲取有價值的信息,一直以來是人們所關心的問題。文本分類是指將文本信息歸為一個或多個類型的過程,可以解決短文本雜亂無章的問題、提高信息利用率以及幫助用戶縮小信息檢索范圍。考慮到這些非結構化文本數(shù)據(jù)的特點,傳統(tǒng)的特征表示方法和分類模型對其直接進行處理結果精度有限。針對這種情況,本文主要從兩個方面著手改進:文本特征選擇方法和文本分類算法。一、鑒于短文本數(shù)據(jù)集的非均衡性,傳統(tǒng)特征選擇方法的不適用性,本文首先把類頻方差和卡方檢驗引入詞頻-逆文檔頻率算法中,形成兩個單模型特征選擇算法,將兩個單模型融合再引入詞向量訓練工具Word2vec形成的算法記為WoTFI,用于特征獲取,該模型既考慮到文本數(shù)據(jù)的語義信息,又兼顧到特征詞在類內和類間分布的差異。和不同的特征表示模型對比,WoTFI不僅能夠靈活實現(xiàn)特征詞權重的分配,也對分類結果產生了積極影響。二、對傳統(tǒng)分類算法做了改進,采用雙向長短時記憶網(wǎng)... 

【文章來源】:安徽大學安徽省 211工程院校

【文章頁數(shù)】:79 頁

【學位級別】:碩士

【部分圖文】:

改進的TF-IDF特征選擇和短文本分類算法研究


本文采用的短文本分類系統(tǒng)藍圖

矩陣圖,文本數(shù)據(jù),矩陣圖,特征向量


第二章短文本分類相關技術簡介10稀疏編碼,雖然它編碼效率高,但是獲得的向量中只有有效位為1,無效的位置全部都為0,效率表達非常低,便可能不適用于某些應用。語料庫中的詞匯表一般都非常大,常達到百萬級別,結果就是一個詞卻用百萬級別的維度來表示,但是在實際實驗時,帶來的是維度爆炸的結果。總之one-hot編碼效率高,但是維度大、特征稀疏、向量之間沒有關聯(lián)性。(3)VSM向量空間模型該模型是由Salton提出的,VSM作為信息檢索的傳統(tǒng)模型,將一個文檔轉化為空間向量,特征詞個數(shù)等于向量的維數(shù)。假設文檔中特征個數(shù)為m,選擇出n個特征詞,由n個特征詞組成的詞序列c=(1,2,…,)。文檔中特征向量是一個長度為n,索引1,2,…,,權值為1,2,…,,剩余位置取值0的向量。文本數(shù)據(jù)集中全部特征向量形成的矩陣如圖2.1所示:圖2.1文本數(shù)據(jù)集中全部特征向量形成的矩陣圖一般來說,文本集合的詞匯量很大,VSM獲取的詞向量維度高,特征稀疏,使得計算復雜。且由于VSM無法捕獲特征詞之間語義關系,便使得兩篇語義相近的文檔因為沒有包含相同的特征詞,計算得出文本的相似度為0,導致文本分類存在誤差。圖2.2特征詞與權重的對應關系

矩陣圖,特征詞,權重,向量


第二章短文本分類相關技術簡介10稀疏編碼,雖然它編碼效率高,但是獲得的向量中只有有效位為1,無效的位置全部都為0,效率表達非常低,便可能不適用于某些應用。語料庫中的詞匯表一般都非常大,常達到百萬級別,結果就是一個詞卻用百萬級別的維度來表示,但是在實際實驗時,帶來的是維度爆炸的結果。總之one-hot編碼效率高,但是維度大、特征稀疏、向量之間沒有關聯(lián)性。(3)VSM向量空間模型該模型是由Salton提出的,VSM作為信息檢索的傳統(tǒng)模型,將一個文檔轉化為空間向量,特征詞個數(shù)等于向量的維數(shù)。假設文檔中特征個數(shù)為m,選擇出n個特征詞,由n個特征詞組成的詞序列c=(1,2,…,)。文檔中特征向量是一個長度為n,索引1,2,…,,權值為1,2,…,,剩余位置取值0的向量。文本數(shù)據(jù)集中全部特征向量形成的矩陣如圖2.1所示:圖2.1文本數(shù)據(jù)集中全部特征向量形成的矩陣圖一般來說,文本集合的詞匯量很大,VSM獲取的詞向量維度高,特征稀疏,使得計算復雜。且由于VSM無法捕獲特征詞之間語義關系,便使得兩篇語義相近的文檔因為沒有包含相同的特征詞,計算得出文本的相似度為0,導致文本分類存在誤差。圖2.2特征詞與權重的對應關系

【參考文獻】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊.  軟件工程. 2020(03)
[2]CNNIC發(fā)布第44次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[J]. 于朝暉.  網(wǎng)信軍民融合. 2019(09)
[3]基于類別特征擴展的短文本分類方法研究[J]. 邵云飛,劉東蘇.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(09)
[4]基于Word2vec和改進型TF-IDF的卷積神經(jīng)網(wǎng)絡文本分類模型[J]. 王根生,黃學堅.  小型微型計算機系統(tǒng). 2019(05)
[5]面向短文本分類的特征提取與算法研究[J]. 劉曉鵬,楊嘉佳,盧凱,田昌海,唐球.  信息技術與網(wǎng)絡安全. 2019(05)
[6]面向Twitter情感分析的文本預處理方法研究[J]. 王永昌,朱立谷.  中國傳媒大學學報(自然科學版). 2019(02)
[7]基于改進K最近鄰算法的中文文本分類[J]. 黃超,陳軍華.  上海師范大學學報(自然科學版). 2019(01)
[8]字符級卷積神經(jīng)網(wǎng)絡短文本分類算法[J]. 劉敬學,孟凡榮,周勇,劉兵.  計算機工程與應用. 2019(05)
[9]深度學習國內研究綜述[J]. 樊雅琴,王炳皓,王偉,唐燁偉.  中國遠程教育. 2015(06)
[10]論淺層學習與深度學習[J]. 葉曉蕓,秦鑒.  軟件導刊. 2006(02)

博士論文
[1]基于深度學習的文本表示與分類方法研究[D]. 閆琰.北京科技大學 2016
[2]支持向量機分類方法及其在文本分類中的應用研究[D]. 趙暉.大連理工大學 2006

碩士論文
[1]基于機器學習的中文文本分類算法的研究與實現(xiàn)[D]. 朱夢.北京郵電大學 2019
[2]基于word2vec和卷積神經(jīng)網(wǎng)絡的文本分類研究[D]. 李林.西南大學 2018



本文編號:3383915

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3383915.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶73c46***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com