基于垂直領域知識圖譜的問答系統(tǒng)研究與應用
發(fā)布時間:2021-06-07 02:03
伴隨著互聯(lián)網(wǎng)和人工智能的飛速發(fā)展,現(xiàn)今已經(jīng)進入“知識互聯(lián)”的時代,對于知識圖譜的關注逐漸升溫。知識圖譜根據(jù)其包含的知識范疇被細分為通用領域知識圖譜和垂直領域知識圖譜。本文重點聚焦于垂直領域知識圖譜構建與答案排序研究,旨在將行業(yè)知識引入問答系統(tǒng),改善問答系統(tǒng)的用戶體驗,為實現(xiàn)并優(yōu)化基于垂直領域知識圖譜的問答系統(tǒng)提供思路。本文的主要研究內(nèi)容包括三個方面:(1)以“建筑安全”為例,研究垂直領域知識圖譜構建方法。針對目前在建筑領域還沒有一個開放的中文安全知識圖譜,而目前使用廣泛的都是百科類的通用知識圖譜,本文提出一個構建建筑安全領域知識圖譜的框架。首先,通過爬蟲獲取建筑領域專業(yè)術語。然后,采用CNN和RNN模型區(qū)分出建筑安全領域文本,使用Bi-LSTM+CRF模型完成常規(guī)實體抽取,通過人工干預結合近義詞擴展的方式完成建筑專業(yè)實體的抽取。緊接著使用依存句法分析完成關系抽取。最后,將拼接好的三元組數(shù)據(jù)導入開源圖數(shù)據(jù)庫Neo4j中,完成建筑安全領域知識圖譜的構建工作,可將其作為知識庫模塊應用于問答系統(tǒng)中。(2)針對實體鏈接和關系鏈接獨立處理會丟失信息且效率不高的問題,提出基于連接密度的實體關系聯(lián)合鏈...
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
基于垂直領域知識圖譜的問答系統(tǒng)示意圖
重慶大學碩士學位論文2相關理論與技術162相關理論與技術在基于垂直領域知識圖譜的問答系統(tǒng)研究與應用中會涉及到多個關鍵環(huán)節(jié),本章將對相關環(huán)節(jié)涉及到的主要技術進行介紹。2.1文本分類現(xiàn)有的文本分類模型主要有兩大類,一類使用傳統(tǒng)機器學習的方法,另一類使用深度學習的方法。由于深度學習的熱度一直持續(xù)未減,基于深度學習的文本分類模型成為目前文本分類模型的主流,下面將對CNN[35]和RNN[36]兩種文本分類模型展開介紹。①CNN模型圖2.1CNN模型示意圖Fig.2.1ThediagramofCNNmodel由圖2.1所示,整個模型主要由輸入層、卷積層、池化層、全連接層四個部分組成。1)輸入層(詞嵌入層)模型的輸入層需要輸入一個固定長度的文本序列,這就需要通過對語料集樣本長度的分析為輸入序列指定長度L。為了確保文本序列長度固定,需要自定義字符填充比L短的樣本序列,截取比L長的序列。最終將文本序列中各個詞匯對應的詞向量輸入到輸入層。
重慶大學碩士學位論文2相關理論與技術172)卷積層自然語言處理中卷積核不涉及多維滑動,卷積核一般只進行一維的滑動,即卷積核在寬度上與詞向量的維度相同。卷積核的高度,即窗口值,可以理解為N-gram模型中的N,即局部詞序的長度。窗口值是一個超參數(shù),需要在實驗中不斷嘗試才能確定,一般選取2-8之間的值。3)池化層在CNN模型的池化層中使用了maxpooling(最大值池化)。選用最大值池化的益處在于既減少了模型參數(shù)的數(shù)量,又能保證將不定長的卷積層的輸出轉換成一個定長的全連接層的輸入。4)全連接層CNN模型中的全連接層提供了分類器的功能。CNN模型使用含有隱藏層的全連接網(wǎng)絡,相當于把卷積層與池化層提取的特征信息輸入到一個分類器中進行分類。②RNN模型循環(huán)神經(jīng)網(wǎng)絡(RNN)借助了人類大腦的記憶模式。人類的想法會根據(jù)之前已經(jīng)記住的東西產(chǎn)生,類似的,RNN借助之前的序列“記憶”,進而產(chǎn)生后面的“想法”。RNN通過記憶機制和反向傳播,可以處理任意長度的序列,在架構上比前饋神經(jīng)網(wǎng)絡更符合生物神經(jīng)網(wǎng)絡的結構。下圖2.2是RNN模型的示意圖。圖2.2RNN模型示意圖Fig.2.2ThediagramofRNNmodel
【參考文獻】:
期刊論文
[1]聊天機器人問答系統(tǒng)現(xiàn)狀與發(fā)展[J]. 馮升. 機器人技術與應用. 2016(04)
[2]基于依存分析的開放式中文實體關系抽取方法[J]. 李明耀,楊靜. 計算機工程. 2016(06)
[3]知識圖譜構建技術綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[4]開放式信息抽取研究進展[J]. 楊博,蔡東風,楊華. 中文信息學報. 2014(04)
[5]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學報. 2011(06)
[6]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術. 2010(06)
[7]語料庫、知識獲取和句法分析[J]. 黃昌寧,苑春法,潘詩梅. 中文信息學報. 1992(03)
本文編號:3215617
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
基于垂直領域知識圖譜的問答系統(tǒng)示意圖
重慶大學碩士學位論文2相關理論與技術162相關理論與技術在基于垂直領域知識圖譜的問答系統(tǒng)研究與應用中會涉及到多個關鍵環(huán)節(jié),本章將對相關環(huán)節(jié)涉及到的主要技術進行介紹。2.1文本分類現(xiàn)有的文本分類模型主要有兩大類,一類使用傳統(tǒng)機器學習的方法,另一類使用深度學習的方法。由于深度學習的熱度一直持續(xù)未減,基于深度學習的文本分類模型成為目前文本分類模型的主流,下面將對CNN[35]和RNN[36]兩種文本分類模型展開介紹。①CNN模型圖2.1CNN模型示意圖Fig.2.1ThediagramofCNNmodel由圖2.1所示,整個模型主要由輸入層、卷積層、池化層、全連接層四個部分組成。1)輸入層(詞嵌入層)模型的輸入層需要輸入一個固定長度的文本序列,這就需要通過對語料集樣本長度的分析為輸入序列指定長度L。為了確保文本序列長度固定,需要自定義字符填充比L短的樣本序列,截取比L長的序列。最終將文本序列中各個詞匯對應的詞向量輸入到輸入層。
重慶大學碩士學位論文2相關理論與技術172)卷積層自然語言處理中卷積核不涉及多維滑動,卷積核一般只進行一維的滑動,即卷積核在寬度上與詞向量的維度相同。卷積核的高度,即窗口值,可以理解為N-gram模型中的N,即局部詞序的長度。窗口值是一個超參數(shù),需要在實驗中不斷嘗試才能確定,一般選取2-8之間的值。3)池化層在CNN模型的池化層中使用了maxpooling(最大值池化)。選用最大值池化的益處在于既減少了模型參數(shù)的數(shù)量,又能保證將不定長的卷積層的輸出轉換成一個定長的全連接層的輸入。4)全連接層CNN模型中的全連接層提供了分類器的功能。CNN模型使用含有隱藏層的全連接網(wǎng)絡,相當于把卷積層與池化層提取的特征信息輸入到一個分類器中進行分類。②RNN模型循環(huán)神經(jīng)網(wǎng)絡(RNN)借助了人類大腦的記憶模式。人類的想法會根據(jù)之前已經(jīng)記住的東西產(chǎn)生,類似的,RNN借助之前的序列“記憶”,進而產(chǎn)生后面的“想法”。RNN通過記憶機制和反向傳播,可以處理任意長度的序列,在架構上比前饋神經(jīng)網(wǎng)絡更符合生物神經(jīng)網(wǎng)絡的結構。下圖2.2是RNN模型的示意圖。圖2.2RNN模型示意圖Fig.2.2ThediagramofRNNmodel
【參考文獻】:
期刊論文
[1]聊天機器人問答系統(tǒng)現(xiàn)狀與發(fā)展[J]. 馮升. 機器人技術與應用. 2016(04)
[2]基于依存分析的開放式中文實體關系抽取方法[J]. 李明耀,楊靜. 計算機工程. 2016(06)
[3]知識圖譜構建技術綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[4]開放式信息抽取研究進展[J]. 楊博,蔡東風,楊華. 中文信息學報. 2014(04)
[5]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學報. 2011(06)
[6]命名實體識別研究進展綜述[J]. 孫鎮(zhèn),王惠臨. 現(xiàn)代圖書情報技術. 2010(06)
[7]語料庫、知識獲取和句法分析[J]. 黃昌寧,苑春法,潘詩梅. 中文信息學報. 1992(03)
本文編號:3215617
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3215617.html
最近更新
教材專著