天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于深度學(xué)習(xí)的文本相似度算法的研究與應(yīng)用

發(fā)布時(shí)間:2021-03-25 19:45
  隨著互聯(lián)網(wǎng)行業(yè)和深度學(xué)習(xí)技術(shù)的快速發(fā)展,自然語(yǔ)言處理領(lǐng)域取得了前所未有的進(jìn)展。自然語(yǔ)言推理在大數(shù)據(jù)的背景下取得了豐碩的成果,文本相似度分析是自然語(yǔ)言推理中一項(xiàng)基本而又關(guān)鍵的任務(wù),并在很多自然語(yǔ)言處理任務(wù)中起著不可替代的作用,比如:信息檢索、自動(dòng)問(wèn)答、機(jī)器翻譯、自動(dòng)摘要和智能客服。提高中文文本相似度計(jì)算準(zhǔn)確性,可以基本解決很多自然語(yǔ)言處理領(lǐng)域中文本相關(guān)的問(wèn)題,因此為了提高文本相似度算法的準(zhǔn)確率,本文做了大量的相關(guān)工作和研究。本文主要研究基于深度學(xué)習(xí)的中文文本相似度算法,分別訓(xùn)練以詞向量和字向量為輸入的中文文本相似度模型,并分析不同粒度的輸入對(duì)模型的影響。本文分析了傳統(tǒng)的孿生LSTM模型的缺點(diǎn),并對(duì)模型進(jìn)行改進(jìn),在模型中引入雙向LSTM,充分利用雙向LSTM每個(gè)時(shí)間步的信息,達(dá)到捕獲文本多維度語(yǔ)義信息的效果,并在模型中引入注意力機(jī)制,使句子編碼所包含的語(yǔ)義信息更加豐富。為了解決一詞多義的問(wèn)題,更好的獲取句子的語(yǔ)義編碼,本文利用遷移學(xué)習(xí)技術(shù),將Bert模型引入到文本相似度計(jì)算中,并在其基礎(chǔ)上結(jié)合卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)句子的深度文本表示,設(shè)計(jì)并實(shí)現(xiàn)了基于Bert的表征模型,并取得了非常好的效果。本... 

【文章來(lái)源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:74 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的文本相似度算法的研究與應(yīng)用


淺層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

過(guò)程圖,神經(jīng)元,過(guò)程,神經(jīng)網(wǎng)絡(luò)


重慶大學(xué)碩士學(xué)位論文2文本相似度研究的相關(guān)理論技術(shù)72文本相似度研究的相關(guān)理論技術(shù)本文主要研究的是中文文本相似度問(wèn)題,在分析研究文本相似度問(wèn)題過(guò)程中涉及到了很多相關(guān)的理論知識(shí),為了后續(xù)章節(jié)對(duì)這些理論知識(shí)的應(yīng)用,本章節(jié)對(duì)其作一個(gè)簡(jiǎn)單的介紹。2.1循環(huán)神經(jīng)網(wǎng)絡(luò)相關(guān)理論循環(huán)神經(jīng)網(wǎng)絡(luò)是由一般的神經(jīng)網(wǎng)絡(luò)進(jìn)化而來(lái),所以在介紹循環(huán)神經(jīng)網(wǎng)絡(luò)之前先闡述一下神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)以及它的缺點(diǎn)。2.1.1神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)分為淺層神經(jīng)網(wǎng)絡(luò)和深層神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與邏輯回歸的結(jié)構(gòu)類似,只不過(guò)神經(jīng)網(wǎng)絡(luò)多了一層隱藏層,典型的神經(jīng)網(wǎng)絡(luò)就是淺層神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)如圖2.1所示:圖2.1淺層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig2.1Structurechartofshallowneuralnetwork從左到右分為三層,即輸入層、隱藏層、輸出層,每一層的輸出數(shù)據(jù)作為下一層的輸入數(shù)據(jù),通過(guò)這樣的結(jié)構(gòu)輸入數(shù)據(jù)最終通過(guò)計(jì)算映射到了輸出層。圖中每一個(gè)圓圈代表一個(gè)神經(jīng)元,我們將一個(gè)神經(jīng)元放大,其計(jì)算過(guò)程如圖2.2所示:圖2.2一個(gè)神經(jīng)元的計(jì)算過(guò)程Fig2.2Thecomputationalprocessofaneuron

結(jié)構(gòu)圖,隱藏層,神經(jīng)網(wǎng)絡(luò)


重慶大學(xué)碩士學(xué)位論文2文本相似度研究的相關(guān)理論技術(shù)8其中z=wT+(2.1)a=σ(z)(2.2)在同一層如果有多個(gè)神經(jīng)元?jiǎng)t進(jìn)行多次這樣的計(jì)算,并共同將結(jié)果作為下一層的輸入。而深層神經(jīng)網(wǎng)絡(luò)就是有多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò),如圖2.3所示是一個(gè)包含三個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò):圖2.3包含三個(gè)隱藏層的深層神經(jīng)網(wǎng)絡(luò)Fig2.3Deepneuralnetworkwiththreehiddenlayers隨著網(wǎng)絡(luò)層數(shù)增加,整個(gè)網(wǎng)絡(luò)所表達(dá)函數(shù)的非線性就越高,能夠?qū)W到的信息就越多,但是參數(shù)也隨之劇增,就能學(xué)習(xí)更多復(fù)雜的函數(shù),完成復(fù)雜的任務(wù)。但是神經(jīng)網(wǎng)絡(luò)有兩個(gè)明顯的缺點(diǎn),如圖2.4是一個(gè)標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):圖2.4標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig2.4Standardneuralnetworkstructuraldiagram

【參考文獻(xiàn)】:
期刊論文
[1]面向自然語(yǔ)言處理的深度學(xué)習(xí)研究[J]. 奚雪峰,周國(guó)棟.  自動(dòng)化學(xué)報(bào). 2016(10)
[2]詞語(yǔ)相似度算法研究綜述[J]. 李慧.  現(xiàn)代情報(bào). 2015(04)
[3]基于大規(guī)模語(yǔ)料庫(kù)的漢語(yǔ)詞義相似度計(jì)算方法[J]. 石靜,吳云芳,邱立坤,呂學(xué)強(qiáng).  中文信息學(xué)報(bào). 2013(01)
[4]語(yǔ)義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究[J]. 華秀麗,朱巧明,李培峰.  計(jì)算機(jī)應(yīng)用研究. 2012(03)
[5]基于VSM的文本相似度計(jì)算的研究[J]. 郭慶琳,李艷梅,唐琦.  計(jì)算機(jī)應(yīng)用研究. 2008(11)
[6]A new similarity computing method based on concept similarity in Chinese text processing[J]. PENG Jing1,2,YANG DongQing1,TANG ShiWei1,WANG TengJiao1 & GAO Jun1 1 School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,China;2 Department of Science and Technology,Chengdu Municipal Public Security,Bureau,Chengdu 610017,China.  Science in China(Series F:Information Sciences). 2008(09)
[7]基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類模型研究[J]. 陳立孚,周寧,李丹.  現(xiàn)代圖書情報(bào)技術(shù). 2005(10)
[8]基于SVM和k-NN結(jié)合的漢語(yǔ)交集型歧義切分方法[J]. 李蓉,劉少輝,葉世偉,史忠植.  中文信息學(xué)報(bào). 2001(06)



本文編號(hào):3100219

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3100219.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶db9bc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com