天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

表示映射及其在關(guān)系抽取和知識(shí)庫(kù)問(wèn)答的應(yīng)用

發(fā)布時(shí)間:2022-04-25 20:50
  隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種信息在網(wǎng)絡(luò)上交相輝映。在這個(gè)信息爆炸的時(shí)代,如何從大規(guī)模信息中高效準(zhǔn)確的獲得用戶關(guān)心的內(nèi)容成為亟需解決的問(wèn)題。關(guān)系抽取和知識(shí)庫(kù)問(wèn)答作為自然語(yǔ)言處理的核心任務(wù),對(duì)于解決此類問(wèn)題起著重要的作用。關(guān)系抽取可以從大量自然語(yǔ)言文本中抽取結(jié)構(gòu)化信息,目前廣泛使用的關(guān)系抽取訓(xùn)練集存在一定的噪音,使用這些結(jié)構(gòu)化信息輔助監(jiān)督關(guān)系抽取可以有效地緩解噪音帶來(lái)的影響。本文將出現(xiàn)在知識(shí)庫(kù)但未在訓(xùn)練集出現(xiàn)的實(shí)體稱作未登錄實(shí)體。在實(shí)際使用過(guò)程中,因?yàn)槿狈ξ吹卿泴?shí)體的表示,關(guān)系抽取的大多數(shù)方法不能很好地處理涉及這些實(shí)體的樣本。知識(shí)庫(kù)問(wèn)答一般可以分為實(shí)體鏈接和關(guān)系檢測(cè)兩個(gè)步驟。相比于實(shí)體鏈接只需要問(wèn)句和知識(shí)庫(kù)實(shí)體的詞匯級(jí)別匹配,關(guān)系檢測(cè)需要理解整句話的語(yǔ)義,因而更具有挑戰(zhàn)性。由于知識(shí)庫(kù)所覆蓋的關(guān)系種類眾多,對(duì)知識(shí)庫(kù)的所有關(guān)系標(biāo)注足量的語(yǔ)料用以訓(xùn)練關(guān)系檢測(cè)模型是不現(xiàn)實(shí)的。同樣地,本文將沒(méi)有標(biāo)注訓(xùn)練語(yǔ)料的關(guān)系稱作未登錄關(guān)系。實(shí)際使用中,知識(shí)庫(kù)問(wèn)答系統(tǒng)不能很好地回答涉及未登錄關(guān)系的問(wèn)題。在開放域的知識(shí)庫(kù)問(wèn)答中,這種現(xiàn)象尤為嚴(yán)重。本文主要對(duì)未登錄實(shí)體和關(guān)系的表示進(jìn)行研究,主要工作內(nèi)容如下:1.本文提出... 

【文章頁(yè)數(shù)】:94 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

表示映射及其在關(guān)系抽取和知識(shí)庫(kù)問(wèn)答的應(yīng)用


圖1-2:智能問(wèn)答的歷史??

組成圖,嵌入技術(shù),知識(shí)庫(kù)


圖2-2:利用詞嵌入技術(shù)表示知識(shí)庫(kù)子圖??2.4知識(shí)庫(kù)問(wèn)答??相比于一般的問(wèn)答系統(tǒng),知識(shí)庫(kù)問(wèn)答依托于一個(gè)結(jié)構(gòu)化的知識(shí)庫(kù)。這些??知識(shí)庫(kù)以“<?實(shí)體,關(guān)系,實(shí)體?>”這樣的三元組組成圖結(jié)構(gòu)。知識(shí)庫(kù)問(wèn)答??就是通過(guò)語(yǔ)義分析將問(wèn)題轉(zhuǎn)化為結(jié)構(gòu)化的查詢語(yǔ)句,進(jìn)而查詢知識(shí)庫(kù),得到??答案。例如???“who?is?the?CEO?of?Apple?inc_?”,可以將這句話轉(zhuǎn)化成如F的??SPARQL?i吾句?“SELECT??name?WHERE?{?name?CEO_of?Apple.};”?,其中得到??實(shí)體“Apple.”和關(guān)系“CEO_of”是轉(zhuǎn)化為結(jié)構(gòu)化查詢語(yǔ)句的重要步驟。??知識(shí)庫(kù)問(wèn)答的一般流程是:先進(jìn)行實(shí)體鏈接,得到問(wèn)題涉及的實(shí)體在知識(shí)??庫(kù)的id,然后進(jìn)行關(guān)系檢測(cè),識(shí)別這個(gè)問(wèn)句所對(duì)應(yīng)的關(guān)系。實(shí)體鏈接中最重要??的就是實(shí)體的識(shí)別,識(shí)別過(guò)程中,一般采用序列化標(biāo)注的方法,即標(biāo)注一個(gè)問(wèn)??句中哪些詞屬于實(shí)體。在關(guān)系檢測(cè)(Relation?Detection,?RD)①方面,傳統(tǒng)的基??于符號(hào)的語(yǔ)義分析方法由于受到符號(hào)間的語(yǔ)義鴻溝的影響,已經(jīng)不適合應(yīng)用在??。些

未登錄詞,詞表,場(chǎng)景,常用詞


??不幸的是,在一個(gè)具有大量未登錄詞的場(chǎng)景下,初始化的方法會(huì)造成已登??錄詞和未登錄詞之間有明顯的界限。如圖3-1PI?所示,其中紅色代表罕見??詞,藍(lán)色代表常用詞,圖3-la是在WMT14翻譯任務(wù)上訓(xùn)練的詞嵌入表示,??圖3-lb是在Google?News使用word2vec訓(xùn)練得到的詞表不?梢钥闯鲇(xùn)練得??到的詞表示有很明顯的分界線,罕見詞總是聚集在一起。同樣的,在知識(shí)庫(kù)問(wèn)??答的場(chǎng)景下,當(dāng)存在大量未登錄關(guān)系時(shí),微調(diào)表示會(huì)導(dǎo)致只有已登錄關(guān)系的表??示會(huì)被調(diào)整到正確的位置,未登錄關(guān)系的表示由于沒(méi)有對(duì)應(yīng)的樣本作為訓(xùn)練??集,所以很難被更新到正確的位置上。特別地,在多分類任務(wù)上,標(biāo)簽是互斥??的,未登錄關(guān)系只能作為負(fù)樣本被隨機(jī)更新,還具有很高的不確定性。??;c.??,???

【參考文獻(xiàn)】:
期刊論文
[1]基于表示學(xué)習(xí)的知識(shí)庫(kù)問(wèn)答研究進(jìn)展與展望[J]. 劉康,張?jiān)?紀(jì)國(guó)良,來(lái)斯惟,趙軍.  自動(dòng)化學(xué)報(bào). 2016(06)



本文編號(hào):3648319

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3648319.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c1296***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com