基于主題的數(shù)據(jù)源發(fā)現(xiàn)與分類技術(shù)研究

發(fā)布時間：2025-05-29 02:27

　　數(shù)據(jù)源中存儲了建立數(shù)據(jù)連接的所有信息,數(shù)據(jù)請求者通過提供正確的數(shù)據(jù)源名稱來查找相應(yīng)的數(shù)據(jù)庫連接,以此獲取數(shù)據(jù)庫中的數(shù)據(jù)信息。在網(wǎng)絡(luò)中,數(shù)據(jù)源內(nèi)容主要存儲在可受限搜索的在線數(shù)據(jù)庫中,這些數(shù)據(jù)庫根據(jù)定向請求動態(tài)生成返回結(jié)果。因此,人們在網(wǎng)絡(luò)中獲取數(shù)據(jù)時,基本都是通過向搜索接口發(fā)送請求,服務(wù)器和在線數(shù)據(jù)庫響應(yīng)請求來返回相關(guān)結(jié)果的。通過接口請求而獲取到數(shù)據(jù)信息的工具稱之為搜索器,傳統(tǒng)的搜索器在對網(wǎng)絡(luò)進行數(shù)據(jù)搜索時只能搜索到靜態(tài)頁面的內(nèi)容,而隱藏在網(wǎng)絡(luò)接口背后的數(shù)據(jù)源卻很難被搜索到,這就使得那些主題專一、結(jié)構(gòu)良好的數(shù)據(jù)不能很好地被利用。本文對現(xiàn)有的數(shù)據(jù)源集成相關(guān)方法進行分析,提出了主題相關(guān)的數(shù)據(jù)源發(fā)現(xiàn)與分類的方法,主要研究內(nèi)容包括:(1)提出了一種適用于數(shù)據(jù)源發(fā)現(xiàn)的HEF模型。該模型通過元素標簽之間的映射關(guān)系來構(gòu)造表單表示,結(jié)合外部知識實現(xiàn)數(shù)據(jù)源發(fā)現(xiàn)。針對元素標簽特征提取過程中存在的特征差異性問題,提出了一種基于外部知識的短語主題模型,該模型通過利用預(yù)先定義的相關(guān)知識來擴展特征。(2)提出了一種適用于數(shù)據(jù)源分類的Skip-PTM模型。該模型通過挖掘數(shù)據(jù)源信息的隱含語義來提高數(shù)據(jù)源分類的準確性。為了...

【文章頁數(shù)】：62 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖1.1搜索引擎用戶使用體驗（左）和搜索引擎用戶滿意度（右）[1-2]

基于主題的數(shù)據(jù)源發(fā)現(xiàn)與分類技術(shù)研究2時，會返回大量網(wǎng)頁或結(jié)果，但大多數(shù)情況下都在不感興趣的領(lǐng)域之內(nèi)，在這樣龐大的信息庫中，如何準確、有效的對數(shù)據(jù)源的主題進行分類是值得研究的問題。圖1.1搜索引擎用戶使用體驗（左）和搜索引擎用戶滿意度（右）[1-2]基于以上分析可以得知，用戶在使用....

圖1.2基于主題的數(shù)據(jù)源相關(guān)研究方法

江蘇大學(xué)工程碩士學(xué)位論文5適用于數(shù)據(jù)源主題分類的Skip-PTM模型；最后，基于本文提出的算法與模型實現(xiàn)了基于主題的數(shù)據(jù)源智能集成系統(tǒng)，該系統(tǒng)可以實現(xiàn)數(shù)據(jù)源的自動集成過程，包括數(shù)據(jù)源的自動發(fā)現(xiàn)與分類，并將結(jié)果可視化系統(tǒng)。本節(jié)研究內(nèi)容具體開展了以下幾個方面的研究：（1）為解決接口特....

圖2.1Bi-gram和Tri-gram結(jié)構(gòu)示意圖

江蘇大學(xué)工程碩士學(xué)位論文7圖2.1Bi-gram和Tri-gram結(jié)構(gòu)示意圖隨著N-gram的N越大，詞的依賴就越多，所以獲得的信息量也會隨之增加，模型效果也就越好。但是隨著N的變大，稀疏性也就隨之增大，例如，在Bi-gram模型中，若詞庫中有20詞匯，那么兩兩組合（202）就有....

圖2.2LDA模型示意圖

題的特征詞，對于任意主題，使用Dirichlet分布作為特征詞分布的先驗分布，即式（2.9）所示：=()(2.9)其中，為Dirichlet分布的超參數(shù)，是一個V維向量，表示所有隱含主題自身的概率分布，V是文本集中的所有特征詞的個數(shù)；也是一個V維向量，表示主題個特征詞的概率分布。....

本文編號：4048579

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/shengwushengchang/4048579.html

上一篇：基于深度學(xué)習的駕駛員疲勞檢測技術(shù)研究
下一篇：基于嵌入式GPU的物體跟蹤算法研究與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題的數(shù)據(jù)源發(fā)現(xiàn)與分類技術(shù)研究