基于排序?qū)W習(xí)的知識(shí)庫(kù)引文推薦
【圖文】:
邐邐逡逑LDA是一個(gè)多層的生成式全概率生成模型,是對(duì)文本的語(yǔ)義特征建模方法,逡逑如下圖所示。LDA算法中包含詞、主題(語(yǔ)義)及文檔三個(gè)概念。LDA的建模逡逑過(guò)程如下:給定一個(gè)文檔集合,LDA將每個(gè)文檔都建模為一個(gè)主題的分布,每逡逑個(gè)主題建模為一個(gè)多項(xiàng)式分布來(lái)表示該主題生成詞的概率。在LDA模型中,這逡逑些主題在所有文檔中都存在而區(qū)分每個(gè)文檔的是:不同文檔有著一個(gè)特定的分布。逡逑LDA的模型包括參數(shù)(cc,邋P),a表示每個(gè)主題(即隱含語(yǔ)義)在整個(gè)文檔集中的逡逑重要性大小,p表示所有主題的分布情況。z表示文檔在每個(gè)詞上的主題的權(quán)重,逡逑0代表文檔中各個(gè)主題在文檔中的比重,W為文檔集中文檔的總數(shù),w是文檔的逡逑詞表示,/Vd表示該文檔的總詞數(shù)。逡逑相較于LSA或PLSA等模型,LDA有很明顯的優(yōu)勢(shì)和好處:首先LDA模逡逑型是全概率生成模型,,故有著更清晰的結(jié)構(gòu)且有較深厚的理論基礎(chǔ);同時(shí),LDA逡逑模型的大小與訓(xùn)練樣本數(shù)無(wú)關(guān),因此對(duì)于數(shù)據(jù)量大的文本語(yǔ)料,有天生的優(yōu)勢(shì)。逡逑隨著LDA模型、LDA的演進(jìn)模型在自然語(yǔ)言處理中的應(yīng)用,他們的價(jià)值逐漸得逡逑到重視并得到了很深入的研究,但在引文推薦領(lǐng)域還沒(méi)有人對(duì)其進(jìn)行應(yīng)用。逡逑
邐第三章基于語(yǔ)義詞典與詞向量的查詢擴(kuò)展邐逡逑的索引。但這種向量有些缺點(diǎn):一是詞典中的詞在意義上并不一定是正交的,不逡逑同維度可能是有關(guān)聯(lián)的?,二是當(dāng)詞典較大的時(shí)候會(huì)引發(fā)維度災(zāi)難(Curse邋of逡逑Dimensionality邋)邋0逡逑詞向量可以視為Distributed邋Representation的一'種具體實(shí)現(xiàn)。Distributed逡逑Representation最早由Hinton與1986年提出,可以克服ont-hot的上述缺點(diǎn)。其逡逑基本思想是:通過(guò)訓(xùn)練,將語(yǔ)言中的每個(gè)詞映射成一個(gè)長(zhǎng)度固定的向量,這些向逡逑量可以視為詞向量空間中的一個(gè)點(diǎn),語(yǔ)義計(jì)算可以通過(guò)點(diǎn)之間的數(shù)學(xué)運(yùn)算來(lái)實(shí)現(xiàn)。逡逑類比的關(guān)系可以通過(guò)向量作差來(lái)計(jì)算,如經(jīng)典的例子King-Queen邋 ̄邋Man邋-逡逑Woman邋0逡逑Mikolov邋在邋2013邋年的論文中,給出邋了基于邋CBOW(ContinuousBag-of-Word)逡逑與Skip-gram邋(Continuous邋Skip-gram)的兩種詞向量訓(xùn)練方法。逡逑■POT邋raOSCTION邋miTRJT邐1:。#埽绷隋澹校遥希剩牛茫裕桑希五澹希剩裕疲欤椋藻义
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 于東;荀恩東;;基于Word Embedding語(yǔ)義相似度的字母縮略術(shù)語(yǔ)消歧[J];中文信息學(xué)報(bào);2014年05期
2 付劍鋒;劉宗田;劉念祖;;基于多知識(shí)庫(kù)和局部反饋的查詢擴(kuò)展研究[J];情報(bào)雜志;2013年02期
3 毛琪;黃永峰;;基于網(wǎng)絡(luò)知識(shí)庫(kù)與通用搜索引擎的查詢?cè)~擴(kuò)展方法[J];計(jì)算機(jī)應(yīng)用;2012年S2期
4 楊清琳;李陶深;農(nóng)健;;基于領(lǐng)域本體知識(shí)庫(kù)的語(yǔ)義查詢擴(kuò)展[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年11期
5 李衛(wèi)疆;趙鐵軍;王憲剛;;基于上下文的查詢擴(kuò)展[J];計(jì)算機(jī)研究與發(fā)展;2010年02期
6 王瑞琴;孔繁勝;;基于無(wú)導(dǎo)詞義消歧的語(yǔ)義查詢擴(kuò)展[J];情報(bào)學(xué)報(bào);2011年02期
相關(guān)博士學(xué)位論文 前1條
1 張富;模糊數(shù)據(jù)庫(kù)支持的模糊描述邏輯與本體知識(shí)庫(kù)抽取和存儲(chǔ)關(guān)鍵技術(shù)的研究[D];東北大學(xué);2011年
相關(guān)碩士學(xué)位論文 前2條
1 張為泰;基于詞向量模型特征空間優(yōu)化的同義詞擴(kuò)展研究與應(yīng)用[D];北京郵電大學(xué);2015年
2 鄒揚(yáng);WAF改進(jìn)算法在基于語(yǔ)義分析的查詢擴(kuò)展上的應(yīng)用[D];北京郵電大學(xué);2012年
本文編號(hào):2583015
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2583015.html