天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

智能音箱中自然語言語義理解算法的研究

發(fā)布時間:2020-09-25 07:53
   隨著智能時代的到來,人工智能相關(guān)技術(shù)極速發(fā)展,語音交互已經(jīng)成為人機交互最重要的方式之一。不論是互聯(lián)網(wǎng)巨頭還是傳統(tǒng)的硬件廠商全部將目光瞄準了智能音箱,紛紛推出自己的智能音箱產(chǎn)品,試圖將智能音箱作為語音入口,提供給用戶眾多內(nèi)容服務(wù),搶占智能家居的樞紐。在智能語音產(chǎn)品中,語義理解準確率是評價一個語音平臺技術(shù)能力和一個語音產(chǎn)品好壞最重要的標準。因此,在智能音箱中最核心的環(huán)節(jié)是語義理解,而其中最重要的功能就是音樂。本文基于智能音箱的使用場景,對音樂領(lǐng)域的語義理解算法和優(yōu)化方法進行了研究,主要開展的工作如下:首先,提出知識庫與搜索結(jié)合的算法,實現(xiàn)音箱中音樂領(lǐng)域的語義理解;谑褂脠鼍芭c要求,智能音箱中對音樂語義理解算法的要求可概述為:信息抽取和意圖識別。為了解決信息抽取,提出基于知識庫與搜索的思想解決音樂領(lǐng)域的信息抽取。這主要是源于音樂具有知識的概念,但內(nèi)部并不具從屬抽象關(guān)系,因此受領(lǐng)域內(nèi)基于知識庫的自然語言理解算法和基于語義的搜索算法啟發(fā),提出了知識庫與搜索相結(jié)合。因智能音箱中query(指令)包含噪音信息,設(shè)計了 query預處理模塊;為了解決音樂領(lǐng)域?qū)嶓w命名歧義問題,設(shè)計了排序步驟;為了解決意圖判斷,為語義理解算法設(shè)計了打分模塊;谝陨系乃枷肱c方案,設(shè)計了由query預處理、搜索及排序、字段抽取和打分四個模塊組成的音樂領(lǐng)域語義理解算法。其次,為了解決基于規(guī)則的排序和打分情況覆蓋不全,隨規(guī)則更加邏輯繁雜問題,提出運用機器學習算法代替規(guī)則,對語義理解算法進行優(yōu)化。第一,提出用基于LambdaMART的音樂排序算法,優(yōu)化排序子模塊進而提升信息抽取的準確率即語義理解算法中屬性準確率和屬性值準確率。本文以AdaRank為對比,從不同角度對比兩個排序?qū)W習算法,最終根據(jù)算法的結(jié)果和使用目的,證明選擇LambdaMART的正確性;贚ambdaMART的音樂排序算法使語義理解算法的屬性準確率提升至99.106%,屬性值準確率提升至98.143%。第二,提出利用基于GBDT的音樂打分算法,優(yōu)化打分子模塊進而提高語義理解算法的意圖識別準確率及意圖召回率。通過對比選擇不同特征及對特征值采用不同處理方式時GBDT模型的評價指標,選出最優(yōu)GBDT模型;贕BDT的打分算法使語義理解算法的意圖準確率提升至99.19%,意圖召回率提升至94.83%。
【學位單位】:湖南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.1
【部分圖文】:

文檔,訓練數(shù)據(jù),基本原理


排序因子的風險;與此同時,還有一套成熟的理論可以用來避免過擬合問題的發(fā)生。逡逑所以信息檢索領(lǐng)域的學者試著利用機器學習的方法來解決排序的問題[?491,排序逡逑學習就這樣誕生。圖2.3為排序?qū)W習的基本原理。逡逑q(l)邐q(m)逡逑卜⑴,5〕.邋f邋C邋),5邋)—邋一邐碌羽逡逑<),3邐:邐W"),3邐———’逡逑:::邋1}逡逑Training邋Date逡逑邐逡逑q邐ri邐丨‘逡逑屯,/(“,)逡逑Test邋Date逡逑圖2.邋3排序?qū)W習基本原理圖逡逑其中,給定文檔(doc)的訓練數(shù)據(jù)(trainingDate)為集合D,每個文檔都用逡逑表示。其中,g是查詢;為文檔特征集合{<,_/;,???/?},文檔特征指是q逡逑和doc的復合特征;w為doc與^的相關(guān)性取值,在不同的方法中,w可能被分逡逑為5級,可能被分為2級,上圖以5級舉例,值越大表示相關(guān)性越大。測試集合逡逑(testdate)用T亦用表示

排序原理


下面以RankNet[:>3]為例,介紹一下pairwise方法的具體算法。Ranking常價指標都無法求梯度,因此沒法直接對評價指標做梯度下降。RankNet的創(chuàng)逡逑處在于,它將不適宜用梯度下降求解的Ranking問題,轉(zhuǎn)化為對概率的交叉逡逑失函數(shù)的優(yōu)化問題,從而適用梯度下降方法。逡逑RankNet的終極目標是得到一個帶參的算分函數(shù):逡逑s邋=邋f(x,w)邐(2.2)逡逑w為文檔的權(quán)重參數(shù)。于是,根據(jù)這個算分函數(shù),可以計算文檔;c,.和丨的得逡逑和sy逡逑5,.邋=/0,.;w),'?邋=/0,?;w)邐(2-3)逡逑根據(jù)得分計算二者的偏序概率逡逑哪(。埽┻姡卞义希校蓿校蓿荆兀掊濉ǎ珰猓ǎ玻粗校釠Q定了邋sigmoid函數(shù)的形狀,再定義交叉熵為損失函數(shù)逡逑C邋=-10§-1-10§1-=1-0-5;-5.+邋10§1邋+邋^-0-5(-5(2.5)

概率分布,排序原理,搜索引擎,文檔


再以分數(shù)的高低作為排序條件,得到最終的排序結(jié)果。有很多訓練最優(yōu)評分逡逑函數(shù)的方法,本文以一個簡單的實例來說明其中一種訓練方法,此方法是以搜索逡逑結(jié)果排列組合的概率分布情況來訓練的方法,圖2.3為此方法的圖解示意。逡逑f{B)=2邋f[Q=l逡逑評分函數(shù)/逡逑A邋S邋^邋¥邋S逡逑

本文編號:2826452

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2826452.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7c858***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com