面向知識(shí)庫(kù)問答的自然語言語義特征表示研究
發(fā)布時(shí)間:2018-04-20 16:15
本文選題:知識(shí)庫(kù)問答 + 量子語義; 參考:《山東師范大學(xué)》2017年博士論文
【摘要】:知識(shí)庫(kù)問答能夠利用知識(shí)庫(kù)信息通過匹配、推理來獲取用戶問題的答案,是自動(dòng)問答的重要組成部分。其目標(biāo)是自動(dòng)理解用戶提出的問題,并從網(wǎng)絡(luò)信息中提取答案。知識(shí)庫(kù)問答的核心是深層理解自然語言,利用深度學(xué)習(xí)技術(shù),能夠?qū)栴}與知識(shí)庫(kù)共同映射到低維語義空間,把問答轉(zhuǎn)化為問題語義與知識(shí)庫(kù)語義的向量相似性判斷問題。因此知識(shí)庫(kù)問答的發(fā)展應(yīng)聚焦于自然語言語義特征表示研究。目前,知識(shí)庫(kù)問答研究中的難題大多是圍繞自然語言語義特征表示的,主要包括:(1) 目前對(duì)于以自然語言描述的問題還沒有一種統(tǒng)一的表示方法,并且不同問題之間的語義關(guān)系缺乏深入研究;(2)自然語言表述通常有歧義,對(duì)于不同語境下的同一文本可能蘊(yùn)含不同的意義,因此準(zhǔn)確理解問題的語義非常困難;(3)將結(jié)構(gòu)化的知識(shí)庫(kù)轉(zhuǎn)化為對(duì)應(yīng)于問題表示的語義特征需要借助深度學(xué)習(xí)算法,隨著知識(shí)庫(kù)規(guī)模的飛速增長(zhǎng)相應(yīng)的深度學(xué)習(xí)算法需要不斷改進(jìn);(4)知識(shí)庫(kù)語義特征來源于不同的知識(shí)庫(kù),這些相互關(guān)聯(lián)的知識(shí)庫(kù)往往結(jié)構(gòu)并不相同。因此需要一種有效方法,能夠利用不同來源的知識(shí)庫(kù)語義特征自動(dòng)生成答案。針對(duì)知識(shí)庫(kù)問答中的問題與不足確立本文研究?jī)?nèi)容,主要集中在改進(jìn)問題表示、問題語義特征選擇、知識(shí)庫(kù)語義表示以及知識(shí)庫(kù)語義聚類等四個(gè)方面。(1)針對(duì)問題語義表示,提出基于量子理論的量子分布表示方法。利用量子態(tài)、量子疊加態(tài)、酉算子及量子混合態(tài)理論實(shí)現(xiàn)字符級(jí)量子分布表示,用來表示基本字符、單詞、短語以及動(dòng)態(tài)文本,并利用詞嵌入表示學(xué)習(xí)方法訓(xùn)練量子嵌入。該方法能夠體現(xiàn)豐富的語素特征,更充分的表示文本間的語義關(guān)系。并且利用密度算子將單詞、句子及篇章級(jí)的長(zhǎng)文本表示為尺寸統(tǒng)一的密度矩陣,而不需要對(duì)輸入文本做統(tǒng)一尺寸的預(yù)處理。實(shí)驗(yàn)表明本文提出的量子分布表示方法在語義相關(guān)性、同義詞檢測(cè)、文本分類以及情感分析等任務(wù)中效果都優(yōu)于對(duì)比模型。(2)針對(duì)問題語義理解,提出基于卷積神經(jīng)網(wǎng)絡(luò)模型的語義特征選擇方法。引入多層感知卷積來增強(qiáng)對(duì)非線性可分概念的抽象能力,為了進(jìn)一步改進(jìn)模型效率在多層感知卷積層中采用Dropout策略。然后利用改進(jìn)模型實(shí)現(xiàn)對(duì)量子嵌入的語義特征選擇。該方法采用量子分布表示作為模型輸入,即不需要為文本進(jìn)行形態(tài)標(biāo)注的預(yù)處理,也不需要在輸入層采用預(yù)訓(xùn)練的詞嵌入表示。并且通過引入多層感知卷積在很大程度上縮減了模型參數(shù)的規(guī)模。實(shí)驗(yàn)表明,基于量子語義空間的卷積神經(jīng)網(wǎng)絡(luò)特征選擇方法能夠表示出更豐富的語義特征及字詞的拼寫特征。(3)針對(duì)知識(shí)庫(kù)語義表示,提出基于知識(shí)圖譜與語料聯(lián)合嵌入的知識(shí)庫(kù)語義表示方法。利用知識(shí)圖譜與語料聯(lián)合嵌入方法實(shí)現(xiàn)量子分布表示與知識(shí)圖譜的聯(lián)合嵌入,用來提升知識(shí)庫(kù)自動(dòng)擴(kuò)充的效率。該方法提高了量子分布表示之間語義關(guān)系的利用效率。并且量子分布表示的規(guī)模遠(yuǎn)小于同等詞匯量的詞嵌入表示,使得文本模型可以直接計(jì)算。實(shí)驗(yàn)表明,該方法在三元組分類、關(guān)系抽取及鏈路預(yù)測(cè)等任務(wù)中性能均優(yōu)于對(duì)比方法。(4)針對(duì)答案生成,提出基于生物地理學(xué)優(yōu)化的語義聚類算法。將吸引子傳播策略引入生物地理學(xué)優(yōu)化來增強(qiáng)算法挖掘數(shù)據(jù)間關(guān)系的能力,并采用Memetic框架加強(qiáng)算法的全局搜索能力,最后采用密度峰值聚類策略實(shí)現(xiàn)語義聚類。該方法能夠充分的挖掘語義表示之間的深層關(guān)系,利用改進(jìn)生物地理學(xué)優(yōu)化的全局搜索能力提高了語義聚類的效果。實(shí)驗(yàn)表明該方法的精度和效率均優(yōu)于對(duì)比算法。
[Abstract]:In this paper , the problem of knowledge base question and answer is expressed by means of deep learning algorithm . ( 2 ) The semantic feature selection method based on convolution neural network model is proposed based on the semantic understanding of the problem . A multi - layer perceptual convolution is introduced to enhance the abstract ability of the nonlinear separable concept .
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)博士學(xué)位論文 前2條
1 王智昊;面向知識(shí)庫(kù)問答的自然語言語義特征表示研究[D];山東師范大學(xué);2017年
2 葉志鵬;基于語義分析的場(chǎng)景分類方法研究[D];哈爾濱工業(yè)大學(xué);2017年
,本文編號(hào):1778517
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1778517.html
最近更新
教材專著