天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于排序?qū)W習(xí)的知識(shí)庫(kù)引文推薦

發(fā)布時(shí)間:2020-02-26 14:14
【摘要】:知識(shí)庫(kù)引文推薦是指針對(duì)知識(shí)庫(kù)內(nèi)的實(shí)體,將與其相關(guān)的文檔進(jìn)行自動(dòng)的篩選與推薦。隨著知識(shí)庫(kù)在各個(gè)領(lǐng)域的廣泛應(yīng)用,知識(shí)庫(kù)引文推薦逐漸成為當(dāng)前的研究熱點(diǎn),例如文本檢索會(huì)議(TextRetrieval Conference,TREC)中的 KBA(Knowledge Base Acceleration)評(píng)測(cè)中就有針對(duì)引文推薦的任務(wù)CCR(Cumulative Citation Recommendation),本文研究的課題也是基于該任務(wù)。當(dāng)前對(duì)知識(shí)庫(kù)引文推薦的研究,主要集中在將其建模為排序?qū)W習(xí)的檢索模型。通過(guò)對(duì)比不同引文推薦常用模型,本文提出了基于排序?qū)W習(xí)的引文推薦方法,在此基礎(chǔ)上將知識(shí)庫(kù)引文推薦歸結(jié)為三個(gè)關(guān)鍵問(wèn)題:針對(duì)知識(shí)庫(kù)某一實(shí)體名的查詢擴(kuò)展、針對(duì)文檔和實(shí)體的特征提取、以及判斷文檔與實(shí)體相關(guān)性的預(yù)測(cè)模型的選擇。本文的主要研究?jī)?nèi)容和階段成果如下:1.提出了基于語(yǔ)義詞典與詞向量(wordembedding)相結(jié)合的實(shí)體查詢擴(kuò)展算法。首先,通過(guò)利用DBpedia中的屬性特征實(shí)現(xiàn)基于語(yǔ)義詞典的實(shí)體查詢擴(kuò)展算法;其次,分別利用WAF和word2vec算法實(shí)現(xiàn)基于詞向量的實(shí)體查詢擴(kuò)展算法;最后將兩種算法結(jié)合起來(lái),獲得最終的實(shí)體擴(kuò)展結(jié)果。2.提取出本領(lǐng)域不常使用的語(yǔ)義特征、句法特征和時(shí)間特征,用以實(shí)現(xiàn)后續(xù)的相似性判斷。采用LDA和ESA算法來(lái)構(gòu)建語(yǔ)義特征,用以解決一詞多義問(wèn)題。此外,本文發(fā)現(xiàn)句法特征和時(shí)間特征在知識(shí)庫(kù)引文推薦中同樣非常有效。3.在上述基礎(chǔ)上,采用point-wise、pair-wise和list-wise三種排序?qū)W習(xí)的方法,實(shí)現(xiàn)實(shí)體與文檔的相關(guān)性判斷。實(shí)驗(yàn)證明,該方法比常用的知識(shí)庫(kù)引文推薦算法更有效。4.提出了線性模型將邏輯回歸與隨機(jī)森林分類器組合起來(lái),完成排序?qū)W習(xí)算法,并最終實(shí)現(xiàn)相關(guān)性的判斷。實(shí)驗(yàn)證明該方法比通用的排序?qū)W習(xí)更能有效解決知識(shí)庫(kù)引文推薦問(wèn)題。5.設(shè)計(jì)并實(shí)現(xiàn)了完整的知識(shí)庫(kù)引文推薦系統(tǒng)。該系統(tǒng)在TREC KBA2014評(píng)測(cè)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果與基線系統(tǒng)相比,F1值平均提升了19.8%。表明本文設(shè)計(jì)的算法能夠較好的解決引文推薦問(wèn)題,且具有可行性。
【圖文】:

分布情況,圖模型,文檔


邐邐逡逑LDA是一個(gè)多層的生成式全概率生成模型,是對(duì)文本的語(yǔ)義特征建模方法,逡逑如下圖所示。LDA算法中包含詞、主題(語(yǔ)義)及文檔三個(gè)概念。LDA的建模逡逑過(guò)程如下:給定一個(gè)文檔集合,LDA將每個(gè)文檔都建模為一個(gè)主題的分布,每逡逑個(gè)主題建模為一個(gè)多項(xiàng)式分布來(lái)表示該主題生成詞的概率。在LDA模型中,這逡逑些主題在所有文檔中都存在而區(qū)分每個(gè)文檔的是:不同文檔有著一個(gè)特定的分布。逡逑LDA的模型包括參數(shù)(cc,邋P),a表示每個(gè)主題(即隱含語(yǔ)義)在整個(gè)文檔集中的逡逑重要性大小,p表示所有主題的分布情況。z表示文檔在每個(gè)詞上的主題的權(quán)重,逡逑0代表文檔中各個(gè)主題在文檔中的比重,W為文檔集中文檔的總數(shù),w是文檔的逡逑詞表示,/Vd表示該文檔的總詞數(shù)。逡逑相較于LSA或PLSA等模型,LDA有很明顯的優(yōu)勢(shì)和好處:首先LDA模逡逑型是全概率生成模型,,故有著更清晰的結(jié)構(gòu)且有較深厚的理論基礎(chǔ);同時(shí),LDA逡逑模型的大小與訓(xùn)練樣本數(shù)無(wú)關(guān),因此對(duì)于數(shù)據(jù)量大的文本語(yǔ)料,有天生的優(yōu)勢(shì)。逡逑隨著LDA模型、LDA的演進(jìn)模型在自然語(yǔ)言處理中的應(yīng)用,他們的價(jià)值逐漸得逡逑到重視并得到了很深入的研究,但在引文推薦領(lǐng)域還沒(méi)有人對(duì)其進(jìn)行應(yīng)用。逡逑

算法模型,輸入層,輸出層,三層


邐第三章基于語(yǔ)義詞典與詞向量的查詢擴(kuò)展邐逡逑的索引。但這種向量有些缺點(diǎn):一是詞典中的詞在意義上并不一定是正交的,不逡逑同維度可能是有關(guān)聯(lián)的?,二是當(dāng)詞典較大的時(shí)候會(huì)引發(fā)維度災(zāi)難(Curse邋of逡逑Dimensionality邋)邋0逡逑詞向量可以視為Distributed邋Representation的一'種具體實(shí)現(xiàn)。Distributed逡逑Representation最早由Hinton與1986年提出,可以克服ont-hot的上述缺點(diǎn)。其逡逑基本思想是:通過(guò)訓(xùn)練,將語(yǔ)言中的每個(gè)詞映射成一個(gè)長(zhǎng)度固定的向量,這些向逡逑量可以視為詞向量空間中的一個(gè)點(diǎn),語(yǔ)義計(jì)算可以通過(guò)點(diǎn)之間的數(shù)學(xué)運(yùn)算來(lái)實(shí)現(xiàn)。逡逑類比的關(guān)系可以通過(guò)向量作差來(lái)計(jì)算,如經(jīng)典的例子King-Queen邋 ̄邋Man邋-逡逑Woman邋0逡逑Mikolov邋在邋2013邋年的論文中,給出邋了基于邋CBOW(ContinuousBag-of-Word)逡逑與Skip-gram邋(Continuous邋Skip-gram)的兩種詞向量訓(xùn)練方法。逡逑■POT邋raOSCTION邋miTRJT邐1:。#埽绷隋澹校遥希剩牛茫裕桑希五澹希剩裕疲欤椋藻义
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前6條

1 于東;荀恩東;;基于Word Embedding語(yǔ)義相似度的字母縮略術(shù)語(yǔ)消歧[J];中文信息學(xué)報(bào);2014年05期

2 付劍鋒;劉宗田;劉念祖;;基于多知識(shí)庫(kù)和局部反饋的查詢擴(kuò)展研究[J];情報(bào)雜志;2013年02期

3 毛琪;黃永峰;;基于網(wǎng)絡(luò)知識(shí)庫(kù)與通用搜索引擎的查詢?cè)~擴(kuò)展方法[J];計(jì)算機(jī)應(yīng)用;2012年S2期

4 楊清琳;李陶深;農(nóng)健;;基于領(lǐng)域本體知識(shí)庫(kù)的語(yǔ)義查詢擴(kuò)展[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年11期

5 李衛(wèi)疆;趙鐵軍;王憲剛;;基于上下文的查詢擴(kuò)展[J];計(jì)算機(jī)研究與發(fā)展;2010年02期

6 王瑞琴;孔繁勝;;基于無(wú)導(dǎo)詞義消歧的語(yǔ)義查詢擴(kuò)展[J];情報(bào)學(xué)報(bào);2011年02期

相關(guān)博士學(xué)位論文 前1條

1 張富;模糊數(shù)據(jù)庫(kù)支持的模糊描述邏輯與本體知識(shí)庫(kù)抽取和存儲(chǔ)關(guān)鍵技術(shù)的研究[D];東北大學(xué);2011年

相關(guān)碩士學(xué)位論文 前2條

1 張為泰;基于詞向量模型特征空間優(yōu)化的同義詞擴(kuò)展研究與應(yīng)用[D];北京郵電大學(xué);2015年

2 鄒揚(yáng);WAF改進(jìn)算法在基于語(yǔ)義分析的查詢擴(kuò)展上的應(yīng)用[D];北京郵電大學(xué);2012年



本文編號(hào):2583015

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2583015.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e4ed7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com