天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于神經(jīng)網(wǎng)絡(luò)的中文論文數(shù)據(jù)分析技術(shù)研究

發(fā)布時(shí)間:2021-10-05 05:22
  近年來,互聯(lián)網(wǎng)得到了十足的發(fā)展,網(wǎng)絡(luò)通訊傳輸技術(shù)也迅速發(fā)展,人們創(chuàng)造傳輸信息的能力大大增強(qiáng),網(wǎng)絡(luò)上充斥著越來越海量的各種虛擬信息和資源。傳統(tǒng)的文本分析技術(shù)在面對(duì)復(fù)雜海量的文本時(shí)越來越乏力。近年來,深度學(xué)習(xí)技術(shù)的發(fā)展使得人們對(duì)于數(shù)據(jù)的處理利用能力大大提升。本文在文本關(guān)鍵語句提取,分類,相似度計(jì)算幾個(gè)方面進(jìn)行了研究和探索,通過改進(jìn)并結(jié)合文本摘要提取技術(shù)和深度學(xué)習(xí)技術(shù)提出了一種有效的方案來進(jìn)行中文文本的分析處理。在文本關(guān)鍵語句提取方面,針對(duì)后續(xù)工作的需要和TF-IDF算法的缺陷,對(duì)其進(jìn)行了適當(dāng)?shù)母倪M(jìn),添加了DAC系數(shù)來衡量詞匯在類間的分布情況,使最終的權(quán)值能更好的衡量詞匯的重要程度,從而得到質(zhì)量更高文本摘要。借助word2vec技術(shù)提出了一種基于語義的相似度計(jì)算方案。訓(xùn)練skip-gram網(wǎng)絡(luò)來獲得詞的向量映射表,將詞匯向量化,之后結(jié)合詞匯的權(quán)值來構(gòu)建文本向量,再利用余弦距離公式來計(jì)算文本間的相似度。使用前文中通過文本摘要提取技術(shù)獲得的文本關(guān)鍵語句和詞向量映射表構(gòu)建網(wǎng)絡(luò)的輸入數(shù)據(jù)形式,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)完成長(zhǎng)文本分類的任務(wù)并對(duì)本文所用的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了詳細(xì)的分析與說明。為了驗(yàn)證方法的可行性和... 

【文章來源】:北方工業(yè)大學(xué)北京市

【文章頁數(shù)】:60 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于神經(jīng)網(wǎng)絡(luò)的中文論文數(shù)據(jù)分析技術(shù)研究


NNLM模型

模型圖,模型,向量,文本


第三章基于語義的中文文本相似度計(jì)算方法203.1.2word2vec技術(shù)的兩種模型Word2Vec技術(shù)可以將文本中的詞匯使用定長(zhǎng)的向量表示出來,并且使得向量之間的關(guān)系可以在一定程度上反映出其對(duì)應(yīng)的詞匯之間的關(guān)系。長(zhǎng)久以來人們都在尋找一個(gè)合理的方法來將詞表示為向量形式,一旦有一種合適的詞向量構(gòu)造方法可以勝任這個(gè)工作,就會(huì)為后續(xù)的文本處理工作提供極大的便利。針對(duì)上述問題,使用one-hot編碼詞是一種最直接的方案,向量的維度就是詞典包含的詞數(shù),這個(gè)詞在詞典中的位置就是向量中1的位置。但是這種過于直接的方式很容易就會(huì)導(dǎo)致維度的爆炸,過于稀疏的數(shù)據(jù)也十分的浪費(fèi)存儲(chǔ)空間。Word2Vec的思路就是讓模型根據(jù)訓(xùn)練語料自動(dòng)挖掘詞語之間的關(guān)聯(lián)并構(gòu)造出合適的向量形式。Word2Vec的實(shí)現(xiàn)兩種方式:skip-gram和CBOW。CBOW模型也叫連續(xù)詞袋模型,但是它卻不同于傳統(tǒng)的詞袋模型,它是通過訓(xùn)練神經(jīng)網(wǎng)路來獲取詞向量的。簡(jiǎn)單來說就是讓通過一個(gè)詞wt的前后k個(gè)詞來預(yù)測(cè)該詞,比如當(dāng)k=2時(shí),輸入就是wt-2,wt-1,wt+1,wt+2,訓(xùn)練目標(biāo)是讓網(wǎng)絡(luò)正確的輸出wt。CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)圖下圖所示:圖3-2CBOW模型由上下文預(yù)測(cè)w(t)的計(jì)算公式為:wwwwwwwpcontextwpktktttktkttt),,...,,,...,,|()|(1111(3-5)CBOW模型與NNLM基礎(chǔ)理論相差不大,主要區(qū)別一方面是CBOW模型省去了

模型圖,模型,中心詞,向量


第三章基于語義的中文文本相似度計(jì)算方法21中間計(jì)算時(shí)較為復(fù)雜的隱層,在加速了訓(xùn)練的同時(shí)其性能也沒有受到明顯影響,另一方面CBOW在進(jìn)行詞的預(yù)測(cè)時(shí)使用的上下文的詞。CBOW模型的目標(biāo)是根據(jù)某個(gè)詞的周圍詞來對(duì)這個(gè)詞進(jìn)行預(yù)測(cè)。例如,對(duì)于句子“中國(guó)人民實(shí)在太團(tuán)結(jié)了”,預(yù)測(cè)實(shí)在這個(gè)詞時(shí),可以使用中國(guó)、人民、太、團(tuán)結(jié)這四個(gè)詞,它們構(gòu)成了實(shí)在的上下文。按照這個(gè)方法就可以得到一系列的訓(xùn)練樣本。之后通過不斷的迭代計(jì)算,調(diào)整參數(shù),當(dāng)整個(gè)神經(jīng)網(wǎng)絡(luò)趨于穩(wěn)定的時(shí)候就是完成了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)。對(duì)于已經(jīng)訓(xùn)練好的網(wǎng)絡(luò),隱藏層的權(quán)重矩陣就是所需的詞向量映射表。Skip-gram模型和CBOW模型相反,是通過一個(gè)中心詞wt,來預(yù)測(cè)該中心詞的前后k個(gè)詞,比如當(dāng)k=1時(shí),輸入就是wt,訓(xùn)練目標(biāo)是讓網(wǎng)絡(luò)可以正確輸出wt-1,wt+1。在一定范圍內(nèi),k越大,訓(xùn)練時(shí)使用的信息就越豐富,相應(yīng)的訓(xùn)練出的詞向量質(zhì)量也越高,但是相對(duì)的計(jì)算復(fù)雜度也會(huì)大大增加,時(shí)間開銷增大。Skip-gram模型的網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示。圖3-3Skip-gram模型Skip-gram模型的訓(xùn)練時(shí)間要比CBOW模型長(zhǎng),因?yàn)镃BOW模型在訓(xùn)練時(shí)是以一個(gè)中心詞為基準(zhǔn)來進(jìn)行反向傳播來調(diào)整其周圍的詞,而Skip-gram模型在訓(xùn)練時(shí)是用中心詞前后的多個(gè)詞匯為基準(zhǔn)來共同調(diào)整該中心詞。也正因?yàn)槿绱耍谛阅芊矫嬉话闱闆r下也是后者的表現(xiàn)好一些。3.1.3word2vec技術(shù)的優(yōu)勢(shì)和特點(diǎn)通過word2vec技術(shù)的得到的詞向量相較于傳統(tǒng)的模型,一方面不會(huì)存在維度爆炸的問題,可以根據(jù)需求調(diào)整詞向量的維度,另一方面通過大量語料的訓(xùn)練

【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量的Jaccard相似度算法[J]. 田星,鄭瑾,張祖平.  計(jì)算機(jī)科學(xué). 2018(07)
[2]面向?qū)崟r(shí)數(shù)據(jù)流的差分隱私直方圖發(fā)布技術(shù)[J]. 楊庚,夏春婷,白云璐.  南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[3]面向時(shí)間序列的微博話題演化模型研究[J]. 王振飛,劉凱莉,鄭志蘊(yùn),王飛.  計(jì)算機(jī)科學(xué). 2017(08)
[4]文本相似度計(jì)算方法研究綜述[J]. 陳二靜,姜恩波.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(06)
[5]基于多層類別主題圖模型的教育文本分類方法[J]. 李全.  計(jì)算機(jī)與現(xiàn)代化. 2016(07)
[6]基于word2vec和SVMperf的中文評(píng)論情感分類研究[J]. 張冬雯,楊鵬飛,許云峰.  計(jì)算機(jī)科學(xué). 2016(S1)
[7]采用連續(xù)詞袋模型(CBOW)的領(lǐng)域術(shù)語自動(dòng)抽取研究[J]. 姜霖,王東波.  現(xiàn)代圖書情報(bào)技術(shù). 2016(02)
[8]改進(jìn)屬性獨(dú)立的加權(quán)樸素貝葉斯分類測(cè)試算法[J]. 李雪蓮.  電子質(zhì)量. 2015(08)
[9]一種基于類別描述的TF-IDF特征選擇方法的改進(jìn)[J]. 徐冬冬,吳韶波.  現(xiàn)代圖書情報(bào)技術(shù). 2015(03)
[10]Word2vec的工作原理及應(yīng)用探究[J]. 周練.  科技情報(bào)開發(fā)與經(jīng)濟(jì). 2015(02)

碩士論文
[1]問答系統(tǒng)中答案選擇算法研究[D]. 朱林風(fēng).北京郵電大學(xué) 2019
[2]基于深度學(xué)習(xí)的自然場(chǎng)景門牌多數(shù)字識(shí)別[D]. 鐘菊萍.廣東技術(shù)師范大學(xué) 2019
[3]基于視覺的道路障礙物檢測(cè)算法及其增強(qiáng)現(xiàn)實(shí)應(yīng)用[D]. 權(quán)鴻斌.福州大學(xué) 2018
[4]一個(gè)面向工作的智能化溝通平臺(tái)的研究和開發(fā)[D]. 趙子鑫.浙江大學(xué) 2018
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類[D]. 刁夏凝.哈爾濱工程大學(xué) 2017
[6]中文文本分類中卡方統(tǒng)計(jì)特征選擇方法和TF-IDF權(quán)重計(jì)算方法的研究[D]. 姚海英.吉林大學(xué) 2016
[7]基于支持向量機(jī)的海量文本分類并行化技術(shù)研究[D]. 任倚天.北京理工大學(xué) 2016
[8]基于編輯距離的字符串模式匹配算法研究[D]. 王春雨.燕山大學(xué) 2015
[9]卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[D]. 李飛騰.大連理工大學(xué) 2014
[10]樸素貝葉斯分類模型的改進(jìn)研究[D]. 朱曉丹.廈門大學(xué) 2014



本文編號(hào):3419081

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3419081.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶732f0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com