基于神經網絡的文本特征表示關鍵技術研究
發(fā)布時間:2021-03-14 19:45
隨著互聯(lián)網時代的到來,文本類型的數據量有了爆發(fā)式的增長。面對海量文本數據,如何從其中提取出有意義的信息是自然語言處理的研究重點。近年來,隨著深度學習的發(fā)展,神經網絡在圖像、語音等方面的研究均取得了較好的成果,在部分實際任務中,甚至可以達到或超越人類水平。然而在自然語言處理方面,由于語言的復雜性和抽象性,對語言的理解一直是人工智能領域較難突破的一部分。文本表示是大部分自然語言處理任務的基礎。文本表示的核心是將自然語言轉變?yōu)橛嬎銠C可處理的形式,并保留文本對應的語義等信息,以便將其運用在具體的實際任務中。本文以神經網絡為基礎模型,以文本的特征表示為研究重點,針對不同層級和粒度的文本單元,提出基于神經網絡的文本特征表示方法,對文本內部的特征進行提取,其主要的研究內容和創(chuàng)新點如下。1.基于字形結構的中文繁體字向量模型研究。本文針對中文繁體字,提出了一種基于文字圖形特征的低于字符級別的字向量表示方式。通過對象形文字的字形特征學習,得到字形所表示的語義結構等信息,豐富了字向量的含義。在模型方面,首先提取中文繁體字的偏旁信息,使用連續(xù)詞袋模型作為基礎,將偏旁信息作為輸入信息的一部分參與模型運算,根據上...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數】:117 頁
【學位級別】:博士
【部分圖文】:
圖1-1?2018年各大網站每分鐘產生的電子數據[2]??以Google搜索引擎為例,2018年平均每分鐘用戶在Google搜索引擎下搜??索次數達到3877140次
圖2-1語言模型結構圖W??圖中最下方的w表示輸入字符的索引,這里可以理解為是字符w的單熱表示??形式,需要通過前n?-?1字測下一w
圖2-2神經網絡發(fā)展時間表[u】??神經網絡的基本結構分為三部分,分別是輸?
【參考文獻】:
期刊論文
[1]語言·認知·隱喻[J]. 胡壯麟. 現(xiàn)代外語. 1997(04)
[2]論漢字簡化的必然趨勢及其優(yōu)化的原則——紀念《漢字簡化方案》公布35周年[J]. 王寧. 語文建設. 1991(02)
本文編號:3082840
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數】:117 頁
【學位級別】:博士
【部分圖文】:
圖1-1?2018年各大網站每分鐘產生的電子數據[2]??以Google搜索引擎為例,2018年平均每分鐘用戶在Google搜索引擎下搜??索次數達到3877140次
圖2-1語言模型結構圖W??圖中最下方的w表示輸入字符的索引,這里可以理解為是字符w的單熱表示??形式,需要通過前n?-?1字測下一w
圖2-2神經網絡發(fā)展時間表[u】??神經網絡的基本結構分為三部分,分別是輸?
【參考文獻】:
期刊論文
[1]語言·認知·隱喻[J]. 胡壯麟. 現(xiàn)代外語. 1997(04)
[2]論漢字簡化的必然趨勢及其優(yōu)化的原則——紀念《漢字簡化方案》公布35周年[J]. 王寧. 語文建設. 1991(02)
本文編號:3082840
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3082840.html
最近更新
教材專著