天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于神經網絡的文本特征表示關鍵技術研究

發(fā)布時間:2021-03-14 19:45
  隨著互聯(lián)網時代的到來,文本類型的數據量有了爆發(fā)式的增長。面對海量文本數據,如何從其中提取出有意義的信息是自然語言處理的研究重點。近年來,隨著深度學習的發(fā)展,神經網絡在圖像、語音等方面的研究均取得了較好的成果,在部分實際任務中,甚至可以達到或超越人類水平。然而在自然語言處理方面,由于語言的復雜性和抽象性,對語言的理解一直是人工智能領域較難突破的一部分。文本表示是大部分自然語言處理任務的基礎。文本表示的核心是將自然語言轉變?yōu)橛嬎銠C可處理的形式,并保留文本對應的語義等信息,以便將其運用在具體的實際任務中。本文以神經網絡為基礎模型,以文本的特征表示為研究重點,針對不同層級和粒度的文本單元,提出基于神經網絡的文本特征表示方法,對文本內部的特征進行提取,其主要的研究內容和創(chuàng)新點如下。1.基于字形結構的中文繁體字向量模型研究。本文針對中文繁體字,提出了一種基于文字圖形特征的低于字符級別的字向量表示方式。通過對象形文字的字形特征學習,得到字形所表示的語義結構等信息,豐富了字向量的含義。在模型方面,首先提取中文繁體字的偏旁信息,使用連續(xù)詞袋模型作為基礎,將偏旁信息作為輸入信息的一部分參與模型運算,根據上... 

【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校

【文章頁數】:117 頁

【學位級別】:博士

【部分圖文】:

基于神經網絡的文本特征表示關鍵技術研究


圖1-1?2018年各大網站每分鐘產生的電子數據[2]??以Google搜索引擎為例,2018年平均每分鐘用戶在Google搜索引擎下搜??索次數達到3877140次

基于神經網絡的文本特征表示關鍵技術研究


圖2-1語言模型結構圖W??圖中最下方的w表示輸入字符的索引,這里可以理解為是字符w的單熱表示??形式,需要通過前n?-?1字測下一w

基于神經網絡的文本特征表示關鍵技術研究


圖2-2神經網絡發(fā)展時間表[u】??神經網絡的基本結構分為三部分,分別是輸?

【參考文獻】:
期刊論文
[1]語言·認知·隱喻[J]. 胡壯麟.  現(xiàn)代外語. 1997(04)
[2]論漢字簡化的必然趨勢及其優(yōu)化的原則——紀念《漢字簡化方案》公布35周年[J]. 王寧.  語文建設. 1991(02)



本文編號:3082840

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3082840.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶d9098***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com