基于主題的數(shù)據(jù)源發(fā)現(xiàn)與分類技術(shù)研究
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.1搜索引擎用戶使用體驗(左)和搜索引擎用戶滿意度(右)[1-2]
基于主題的數(shù)據(jù)源發(fā)現(xiàn)與分類技術(shù)研究2時,會返回大量網(wǎng)頁或結(jié)果,但大多數(shù)情況下都在不感興趣的領(lǐng)域之內(nèi),在這樣龐大的信息庫中,如何準確、有效的對數(shù)據(jù)源的主題進行分類是值得研究的問題。圖1.1搜索引擎用戶使用體驗(左)和搜索引擎用戶滿意度(右)[1-2]基于以上分析可以得知,用戶在使用....
圖1.2基于主題的數(shù)據(jù)源相關(guān)研究方法
江蘇大學(xué)工程碩士學(xué)位論文5適用于數(shù)據(jù)源主題分類的Skip-PTM模型;最后,基于本文提出的算法與模型實現(xiàn)了基于主題的數(shù)據(jù)源智能集成系統(tǒng),該系統(tǒng)可以實現(xiàn)數(shù)據(jù)源的自動集成過程,包括數(shù)據(jù)源的自動發(fā)現(xiàn)與分類,并將結(jié)果可視化系統(tǒng)。本節(jié)研究內(nèi)容具體開展了以下幾個方面的研究:(1)為解決接口特....
圖2.1Bi-gram和Tri-gram結(jié)構(gòu)示意圖
江蘇大學(xué)工程碩士學(xué)位論文7圖2.1Bi-gram和Tri-gram結(jié)構(gòu)示意圖隨著N-gram的N越大,詞的依賴就越多,所以獲得的信息量也會隨之增加,模型效果也就越好。但是隨著N的變大,稀疏性也就隨之增大,例如,在Bi-gram模型中,若詞庫中有20詞匯,那么兩兩組合(202)就有....
圖2.2LDA模型示意圖
題的特征詞,對于任意主題,使用Dirichlet分布作為特征詞分布的先驗分布,即式(2.9)所示:=()(2.9)其中,為Dirichlet分布的超參數(shù),是一個V維向量,表示所有隱含主題自身的概率分布,V是文本集中的所有特征詞的個數(shù);也是一個V維向量,表示主題個特征詞的概率分布。....
本文編號:4048579
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/4048579.html