天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題的數(shù)據(jù)源發(fā)現(xiàn)與分類技術(shù)研究

發(fā)布時間:2025-05-29 02:27
  數(shù)據(jù)源中存儲了建立數(shù)據(jù)連接的所有信息,數(shù)據(jù)請求者通過提供正確的數(shù)據(jù)源名稱來查找相應(yīng)的數(shù)據(jù)庫連接,以此獲取數(shù)據(jù)庫中的數(shù)據(jù)信息。在網(wǎng)絡(luò)中,數(shù)據(jù)源內(nèi)容主要存儲在可受限搜索的在線數(shù)據(jù)庫中,這些數(shù)據(jù)庫根據(jù)定向請求動態(tài)生成返回結(jié)果。因此,人們在網(wǎng)絡(luò)中獲取數(shù)據(jù)時,基本都是通過向搜索接口發(fā)送請求,服務(wù)器和在線數(shù)據(jù)庫響應(yīng)請求來返回相關(guān)結(jié)果的。通過接口請求而獲取到數(shù)據(jù)信息的工具稱之為搜索器,傳統(tǒng)的搜索器在對網(wǎng)絡(luò)進行數(shù)據(jù)搜索時只能搜索到靜態(tài)頁面的內(nèi)容,而隱藏在網(wǎng)絡(luò)接口背后的數(shù)據(jù)源卻很難被搜索到,這就使得那些主題專一、結(jié)構(gòu)良好的數(shù)據(jù)不能很好地被利用。本文對現(xiàn)有的數(shù)據(jù)源集成相關(guān)方法進行分析,提出了主題相關(guān)的數(shù)據(jù)源發(fā)現(xiàn)與分類的方法,主要研究內(nèi)容包括:(1)提出了一種適用于數(shù)據(jù)源發(fā)現(xiàn)的HEF模型。該模型通過元素標簽之間的映射關(guān)系來構(gòu)造表單表示,結(jié)合外部知識實現(xiàn)數(shù)據(jù)源發(fā)現(xiàn)。針對元素標簽特征提取過程中存在的特征差異性問題,提出了一種基于外部知識的短語主題模型,該模型通過利用預(yù)先定義的相關(guān)知識來擴展特征。(2)提出了一種適用于數(shù)據(jù)源分類的Skip-PTM模型。該模型通過挖掘數(shù)據(jù)源信息的隱含語義來提高數(shù)據(jù)源分類的準確性。為了...

【文章頁數(shù)】:62 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖1.1搜索引擎用戶使用體驗(左)和搜索引擎用戶滿意度(右)[1-2]

圖1.1搜索引擎用戶使用體驗(左)和搜索引擎用戶滿意度(右)[1-2]

基于主題的數(shù)據(jù)源發(fā)現(xiàn)與分類技術(shù)研究2時,會返回大量網(wǎng)頁或結(jié)果,但大多數(shù)情況下都在不感興趣的領(lǐng)域之內(nèi),在這樣龐大的信息庫中,如何準確、有效的對數(shù)據(jù)源的主題進行分類是值得研究的問題。圖1.1搜索引擎用戶使用體驗(左)和搜索引擎用戶滿意度(右)[1-2]基于以上分析可以得知,用戶在使用....


圖1.2基于主題的數(shù)據(jù)源相關(guān)研究方法

圖1.2基于主題的數(shù)據(jù)源相關(guān)研究方法

江蘇大學(xué)工程碩士學(xué)位論文5適用于數(shù)據(jù)源主題分類的Skip-PTM模型;最后,基于本文提出的算法與模型實現(xiàn)了基于主題的數(shù)據(jù)源智能集成系統(tǒng),該系統(tǒng)可以實現(xiàn)數(shù)據(jù)源的自動集成過程,包括數(shù)據(jù)源的自動發(fā)現(xiàn)與分類,并將結(jié)果可視化系統(tǒng)。本節(jié)研究內(nèi)容具體開展了以下幾個方面的研究:(1)為解決接口特....


圖2.1Bi-gram和Tri-gram結(jié)構(gòu)示意圖

圖2.1Bi-gram和Tri-gram結(jié)構(gòu)示意圖

江蘇大學(xué)工程碩士學(xué)位論文7圖2.1Bi-gram和Tri-gram結(jié)構(gòu)示意圖隨著N-gram的N越大,詞的依賴就越多,所以獲得的信息量也會隨之增加,模型效果也就越好。但是隨著N的變大,稀疏性也就隨之增大,例如,在Bi-gram模型中,若詞庫中有20詞匯,那么兩兩組合(202)就有....


圖2.2LDA模型示意圖

圖2.2LDA模型示意圖

題的特征詞,對于任意主題,使用Dirichlet分布作為特征詞分布的先驗分布,即式(2.9)所示:=()(2.9)其中,為Dirichlet分布的超參數(shù),是一個V維向量,表示所有隱含主題自身的概率分布,V是文本集中的所有特征詞的個數(shù);也是一個V維向量,表示主題個特征詞的概率分布。....



本文編號:4048579

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/4048579.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶48583***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com