天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

面向問答系統(tǒng)的相似問題識別研究

發(fā)布時間:2020-08-12 08:41
【摘要】:在互聯(lián)網(wǎng)技術(shù)日益繁榮的今天,各種各樣的信息呈現(xiàn)出爆炸性的增長態(tài)勢,問答系統(tǒng)也不例外,積累了龐大的問題庫。隨著人工智能在現(xiàn)代社會如火如荼地發(fā)展,大數(shù)據(jù)給人們的工作和生活帶來了越來越多的好處。因此,對這些龐大的數(shù)據(jù)信息進行合理有效地處理,從而為用戶提供精確可靠的信息資源具有極其重要的意義。雖然現(xiàn)代搜索引擎幫助人們從撲面而來的信息中得到了一定程度的解脫,但是不難發(fā)現(xiàn),在真正有用的信息中卻夾雜著大量的噪聲信息。如何避免這些噪聲數(shù)據(jù)的干擾,提高用戶搜索信息的質(zhì)量和效率,問答系統(tǒng)在這方面起到了很大的作用。問答系統(tǒng)被認(rèn)為是更高級別的檢索系統(tǒng),這是因為該系統(tǒng)一方面克服了搜索引擎難以理解用戶意圖的缺點,另一方面也避免了一些錯誤結(jié)果的返回。對于用戶用自然語言提出的問題,問答系統(tǒng)往往能夠給出簡潔、準(zhǔn)確、對用戶友好的答案。問答系統(tǒng)是一個不斷發(fā)展的研究領(lǐng)域,它融合了信息檢索、自然語言處理和深度學(xué)習(xí)等技術(shù),分為自由文本體系結(jié)構(gòu)的問答系統(tǒng)和問題答案對體系結(jié)構(gòu)的問答系統(tǒng)。本文主要研究基于問題答案對體系結(jié)構(gòu)的問答系統(tǒng),通過將用戶提交的問題進行分析,進而與系統(tǒng)中的問題組數(shù)據(jù)庫進行匹配,檢索到與用戶提交的問題語義最相似的問題,之后將類似問題的最佳候選答案推薦給用戶,從而可以提高用戶檢索有效信息的效率。因此,為了更好地理解用戶的查詢意圖,匹配到問答系統(tǒng)中最相似的問題,對問題對之間進行語義相似度計算就顯得尤其重要。文本的相似度計算一般是從短語、句子、段落和文檔這些層級進行衡量和分析,本文主要是針對問答系統(tǒng)問題對句子級別的語義相似性方面進行研究。受卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域應(yīng)用的啟發(fā),本文構(gòu)建了基于孿生卷積神經(jīng)網(wǎng)絡(luò)生成自適應(yīng)內(nèi)容信息矩陣的深度學(xué)習(xí)模型,提出了將自適應(yīng)近鄰圖和先驗知識近鄰圖組合形成雙通道近鄰圖的方法。文本近鄰圖能夠表達文本樣本的近鄰關(guān)系,本文采用詞嵌入的方式將文本轉(zhuǎn)換為向量形式,通過構(gòu)建文本相似度關(guān)系矩陣來獲得文本近鄰圖。現(xiàn)有方法通常是構(gòu)造靜態(tài)的近鄰圖,這些方法一方面依賴先驗知識,另一方面難以獲得句子對的最優(yōu)表示,針對這些不足,本文提出了利用孿生卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更優(yōu)的動態(tài)更新的近鄰圖方法,通過實驗,該模型在Quora和MSRP兩種數(shù)據(jù)集上的準(zhǔn)確率分別是84.35%和75.65%,F1值分別是79.98%和82.97%,實驗結(jié)果比其它方法表現(xiàn)要好,證明了本文提出的深度學(xué)習(xí)模型在短文本問題對的識別和匹配任務(wù)上具有可行性和有效性。
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18
【圖文】:

模型圖,模型,袋模,矢量表示


圖 2-1 Skip-Gram 模型[31]Figure 2-1 Skip-Gram model[31]kip-gram 的基礎(chǔ)模型架構(gòu),由圖可以看到,該模型的訓(xùn)學(xué)習(xí)預(yù)測它附近單詞的矢量表示。Skip-gram 模型整個藏層和 softmax,每個詞向量作為 log-linear 模型的輸BOW 模型,連續(xù)詞袋模型的結(jié)構(gòu)示意圖如圖 2-2 所示

模型圖,模型,袋模,隱藏層


圖 2-1 Skip-Gram 模型[31]Figure 2-1 Skip-Gram model[31] Skip-gram 的基礎(chǔ)模型架構(gòu),由圖可以看到,該模型的訓(xùn)來學(xué)習(xí)預(yù)測它附近單詞的矢量表示。Skip-gram 模型整個隱藏層和 softmax,每個詞向量作為 log-linear 模型的輸入 CBOW 模型,連續(xù)詞袋模型的結(jié)構(gòu)示意圖如圖 2-2 所示:

文本,單詞,級別,短語


基于孿生卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,這是一種使用孿生卷積網(wǎng)絡(luò)生成可學(xué)習(xí)文本信息矩陣的方法,通過這種方法來獲取文本中的關(guān)鍵內(nèi)容信息,進而達到更好識別與檢測問答系統(tǒng)中相似問題的目標(biāo)。文本匹配從不同層級上來分,可以分為單詞之間的匹配,短語級別的匹配以及句子水平上的匹配,對于長文本、段落以及大型文檔,可以將其拆分成句子級別的匹配。繼續(xù)用上面的例子來說明一下,如下圖 2-3 所示:兩個文本中單詞之間的匹配稱為字符級別匹配,包括完全相同的單詞之間的匹配,例如“in-in”; “a-a”;也包括詞義相近的單詞匹配,如“improve-enhance”;“skill-ability”;短語級別的匹配是指 N-gram 匹配(n 個連續(xù)單詞發(fā)生的匹配),也就是幾個單詞組成的短語之 間 的 匹 配 , 例 如 “(How can I )-(Are there any ways”; “(improve the programingskills)-(enhancing my coding abilities)”;“(in a few months)-in a short period)”。當(dāng)把多個較低級別的匹配單元組合起來以后就可以形成句子級別的匹配或者段落、文檔之間的匹配。比如下面的這個句子對可從單詞和短語級別進行匹配,當(dāng)我們對包括很多句子的段落進行匹配時,可以考慮將整個段落視為一個長句子。

【相似文獻】

相關(guān)期刊論文 前10條

1 任夢婷;王娟;阮佩姍;劉振盼;;影響高質(zhì)量網(wǎng)絡(luò)問答系統(tǒng)建設(shè)的因素[J];物流科技;2016年12期

2 武振國;李艷翠;;植物病蟲害智能問答系統(tǒng)設(shè)計與實現(xiàn)[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2017年01期

3 費建軍;;智能問答系統(tǒng)中命名實體識別問題研究[J];數(shù)字技術(shù)與應(yīng)用;2017年07期

4 何秀;;智能問答系統(tǒng)的研究與設(shè)計[J];南方農(nóng)機;2017年20期

5 張中峰;李秋丹;;社區(qū)問答系統(tǒng)研究綜述[J];計算機科學(xué);2010年11期

6 劉文華;康海燕;;領(lǐng)域問答系統(tǒng)生成器的研究[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2009年03期

7 張積賓;徐志明;王恒;潘啟樹;;面向大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)的社會化問答系統(tǒng)[J];哈爾濱工業(yè)大學(xué)學(xué)報;2008年12期

8 徐雄;;基于深度學(xué)習(xí)的問答系統(tǒng)研究[J];湖北師范大學(xué)學(xué)報(自然科學(xué)版);2019年01期

9 吳靈慧;;問答系統(tǒng)研究綜述[J];科技傳播;2019年05期

10 趙昌志;王怡婷;張小琴;;基于深度學(xué)習(xí)的智能問答系統(tǒng)研究與設(shè)計[J];信息與電腦(理論版);2019年11期

相關(guān)會議論文 前10條

1 何靖;陳

本文編號:2790305


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2790305.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24711***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com