天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于神經(jīng)網(wǎng)絡(luò)嵌入模型的中文文本分類方法研究

發(fā)布時間:2022-01-07 02:09
  文本分類是目前自然語言處理領(lǐng)域最基礎(chǔ)的任務(wù)之一,在信息檢索、推薦系統(tǒng)等領(lǐng)域都有著廣泛的研究和應(yīng)用。傳統(tǒng)的文本分類方法通過人工特征工程等方法對文本進行表示,再選擇合適的分類器對文本表示進行分類。隨著機器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,一些基于神經(jīng)網(wǎng)絡(luò)的嵌入模型也在文本分類領(lǐng)域取得了出色的應(yīng)用效果,尤其在英文文本分類領(lǐng)域。相較于英文文本分類,中文文本分類近幾年才得到了廣泛的關(guān)注,然而,由于其應(yīng)用場景的差異和中文單詞沒有天然分隔符的特點,給中文文本分類帶來了巨大挑戰(zhàn)。因而進一步研究適用于不同場景的中文文本分類的算法具有重要意義和應(yīng)用價值;诖,本文開展了基于神經(jīng)網(wǎng)絡(luò)嵌入模型的中文文本分類方法研究,主要研究工作如下:(1)實際應(yīng)用領(lǐng)域如稅收領(lǐng)域開具的增值稅發(fā)票數(shù)據(jù)具有總體數(shù)據(jù)量大、每條文本信息量少、特征項模糊等特點,這種海量極短中文文本數(shù)據(jù)的特點導(dǎo)致傳統(tǒng)表示學(xué)習(xí)算法難以處理向量稀疏和維度災(zāi)難的問題。因此,本文提出一種基于詞句嵌入模型的中文極短文本分類方法。首先,借助海量語料庫使用基于神經(jīng)網(wǎng)絡(luò)的詞句嵌入模型對文本進行有效表示,進而結(jié)合分類器對文本進行分類。最后,在稅收編碼分類任務(wù)的1600萬真實數(shù)據(jù)集上... 

【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于神經(jīng)網(wǎng)絡(luò)嵌入模型的中文文本分類方法研究


020年2月21日百度新聞的新聞分類[27]

郵箱,智能,文本分類,短文


第二章文本分類相關(guān)研究綜述9圖2.2網(wǎng)易郵箱的智能分類設(shè)置Fig2.2IntelligentclassificationSettingsforNetEasemailbox.2.1.2文本分類難點文本分類作為一個基礎(chǔ)任務(wù)已經(jīng)研究了很多年,它和自然語言處理領(lǐng)域中的很多技術(shù)都密切相關(guān),如語言理解,語義相似度度量等等,這些技術(shù)的難點同時也是文本分類問題的難點。人類語言形式結(jié)構(gòu)多樣,在不同的場景中有不一樣的運用,如何讓機器理解人類的語言一直都有著許多的困難,這些困難都會影響到文本分類的效果。(1)短文本問題短文本分類問題是文本分類領(lǐng)域中一類常見問題。短文本一般指的是不超過160個字符的文本,常見的形式有微博、新聞標(biāo)題、觀點評論等。短文本特征詞一般較少,用傳統(tǒng)的向量空間模型表示時會造成特征稀疏的問題;短文本中還會有不規(guī)則特征詞和未登錄詞;短文本如微博、評論等還有實時性、海量性的特點,這些都給文本分類帶來了困難。例如下面兩條新聞標(biāo)題分類:“伊達傳說EDDAOnline”應(yīng)該屬于游戲類,從字面意思難以判斷,也容易分

模型圖,模型,詞句,短文


合肥工業(yè)大學(xué)碩士學(xué)位論文223.2基于詞句嵌入模型的中文極短文本分類框架本節(jié)將介紹基于詞句嵌入模型的海量中文極短文本分類框架,所用到的符號及相應(yīng)意義如表3.1所示。3.2.1詞嵌入模型圖3.1CBOW模型Fig3.1CBOWmodel圖3.2Skip-gram模型Fig3.2Skip-grammodel


本文編號:3573596

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3573596.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e160c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com