基于跨媒體語義特征的在線社交網(wǎng)絡(luò)國民安全信息搜索研究
發(fā)布時間:2020-08-15 16:21
【摘要】:隨著社交網(wǎng)絡(luò)用戶群體的日益擴大,社交網(wǎng)絡(luò)中每天產(chǎn)生的數(shù)據(jù)也越來越多,社交網(wǎng)絡(luò)中的數(shù)據(jù)往往存在著噪聲性、多樣性及語義稀疏性等問題。針對社交網(wǎng)絡(luò)數(shù)據(jù)存在的上述問題,本文對社交網(wǎng)絡(luò)跨媒體時空特性數(shù)據(jù)的感知獲取、社交網(wǎng)絡(luò)跨媒體數(shù)據(jù)的語義提取建模,社交網(wǎng)絡(luò)數(shù)據(jù)跨媒體語義搜索進行研究,最終實現(xiàn)了基于跨媒體語義特征的在線社交網(wǎng)絡(luò)國民安全信息搜索系統(tǒng)。論文完成的主要工作如下:(1)在社交網(wǎng)絡(luò)跨媒體時空特性數(shù)據(jù)的感知獲取方面,針對社交網(wǎng)絡(luò)數(shù)據(jù)廣泛存在的噪聲性、多樣性問題,提出了一種社交網(wǎng)絡(luò)國民安全時空特性數(shù)據(jù)獲取方法。通過建立國民安全關(guān)鍵詞詞庫,對社交網(wǎng)絡(luò)跨媒體數(shù)據(jù)進行組織獲取,過濾社交網(wǎng)絡(luò)數(shù)據(jù)中存在的噪聲信息,對社交網(wǎng)絡(luò)跨媒體有效數(shù)據(jù)進行存儲。通過提取社交網(wǎng)絡(luò)對象時間信息、空間位置信息、用戶狀態(tài)信息等,對社交網(wǎng)絡(luò)國民安全跨媒體數(shù)據(jù)的時空特性進行感知與獲取。(2)在社交網(wǎng)絡(luò)跨媒體數(shù)據(jù)的語義提取建模方面,針對社交網(wǎng)絡(luò)數(shù)據(jù)存在模態(tài)形式多樣以及語義稀疏性的特點,提出了基于時空主題詞嵌入的文本語義建模算法(STTE)和時空跨媒體語義關(guān)聯(lián)建模算法(STECM)。對于社交網(wǎng)絡(luò)中的文本數(shù)據(jù),結(jié)合數(shù)據(jù)的時空特性,對文本的時間信息和地理空間信息進行建模,通過結(jié)合語料數(shù)據(jù)中的全局和局部上下文信息,充分挖掘文本上下文之間的關(guān)聯(lián),獲得最準確的特征,與傳統(tǒng)的主題概率模型相比分類準確率提高了12.7%,與傳統(tǒng)詞嵌入模型相比分類準確率提高了9.2%。對于社交網(wǎng)絡(luò)中的圖像數(shù)據(jù),通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像的深度特征,對圖像數(shù)據(jù)的視覺特征進行抽象學習,獲得圖像的深度特征表示,并使用跨模態(tài)關(guān)聯(lián)映射函數(shù)建立跨媒體數(shù)據(jù)間的語義映射關(guān)系,關(guān)聯(lián)后的跨模態(tài)特征在社交網(wǎng)絡(luò)國民安全數(shù)據(jù)上的分類性能提高了6.9%。(3)在社交網(wǎng)絡(luò)數(shù)據(jù)跨媒體語義搜索方面,針對社交網(wǎng)絡(luò)數(shù)據(jù)的多樣性和噪聲性問題,提出了基于深度隨機游走的跨媒體語義關(guān)聯(lián)映射算法(DWM),通過挖掘社交網(wǎng)絡(luò)數(shù)據(jù)間的深度語義關(guān)聯(lián),實現(xiàn)了跨媒體語義關(guān)聯(lián)映射。提出了基于語義擴展和深度哈希網(wǎng)絡(luò)的社交網(wǎng)絡(luò)跨媒體搜索算法(DHCS)。結(jié)合語義信息擴展和哈希編碼,在社交網(wǎng)絡(luò)跨模態(tài)搜索場景下,MAP指標與傳統(tǒng)跨媒體空間搜索算法相比提高了13.1%,PR曲線指標相比對比算法提高了21.2%。(4)設(shè)計并實現(xiàn)了基于跨媒體語義特征的在線社交網(wǎng)絡(luò)國民安全信息搜索系統(tǒng)。系統(tǒng)包括社交網(wǎng)絡(luò)國民安全數(shù)據(jù)感知獲取模塊、社交網(wǎng)絡(luò)國民安全數(shù)據(jù)特征提取建模模塊,以及社交網(wǎng)絡(luò)國民安全數(shù)據(jù)跨媒體語義空間搜索模塊,實現(xiàn)了社交網(wǎng)絡(luò)跨媒體國民安全信息的搜索。
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP309
【圖文】:
最早起源于概率隱性語義分析算法(pLSA),概率隱性語義分析算法由逡逑Thomas邋Hofmann提出,對于數(shù)據(jù)集中的任意文檔,pLSA假設(shè)都是通過一下規(guī)則逡逑生成的,如圖2-1所示,首先根據(jù)文檔分布/Y0選擇當前文檔之,從文檔的逡逑條件概率主題分布AzJO中抽取一個主題作為當前文檔的主題,根據(jù)被逡逑抽取主題的主題單詞條件概率分布選取一個單詞%加入到文檔中,逡逑最后重復單詞選取過程,直至生成當前文檔之中包含的所有單詞,重復選取文逡逑檔的過程,以生成語料中的全部文檔。逡逑假定語料中所有文檔符合上述生成過程,為得到訓練語料的主題分布情況,逡逑pLSA通常使用最大期望算法(EM)對隱含的主題概率分布戶(&邋|0和P(w?邋|z,)逡逑進行求解,最大期望算法的基本思想為,首先將待估計的概率分布RzJO和逡逑進行隨機初始化
逑由DavidBlei提出,與pLSA算法相比,LDA算法對兩個待估計的主題概率分布逡逑矩陣引入了貝葉斯先驗,其生成過程為如圖2-2所示。逡逑O逡逑邐邋M逡逑圖2-2邋LDA算法生成過程逡逑具體的生成過程如下:逡逑(1)
如式(2-2)所示,其中W為給定的單詞序列,目標函數(shù)為平均對數(shù)概率,C為提前制定的目標單詞上下文的大小總數(shù)。逡逑I(Z))=T7ZZlo§PrK邋lw/)^邋/=1邋ceC,逡逑使用了如式(2-3)所示的Soft-max函數(shù),為當前目標單文單詞。模型通過隨機梯度下降法進行訓練,訓練完成的參數(shù)來對目標單詞進行表示。逡逑PrWW,>邋£=二.)走技術(shù)逡逑數(shù)據(jù)中有眾多圖結(jié)構(gòu)的數(shù)據(jù),如社交網(wǎng)絡(luò)用戶關(guān)注關(guān)系、
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP309
【圖文】:
最早起源于概率隱性語義分析算法(pLSA),概率隱性語義分析算法由逡逑Thomas邋Hofmann提出,對于數(shù)據(jù)集中的任意文檔,pLSA假設(shè)都是通過一下規(guī)則逡逑生成的,如圖2-1所示,首先根據(jù)文檔分布/Y0選擇當前文檔之,從文檔的逡逑條件概率主題分布AzJO中抽取一個主題作為當前文檔的主題,根據(jù)被逡逑抽取主題的主題單詞條件概率分布選取一個單詞%加入到文檔中,逡逑最后重復單詞選取過程,直至生成當前文檔之中包含的所有單詞,重復選取文逡逑檔的過程,以生成語料中的全部文檔。逡逑假定語料中所有文檔符合上述生成過程,為得到訓練語料的主題分布情況,逡逑pLSA通常使用最大期望算法(EM)對隱含的主題概率分布戶(&邋|0和P(w?邋|z,)逡逑進行求解,最大期望算法的基本思想為,首先將待估計的概率分布RzJO和逡逑進行隨機初始化
逑由DavidBlei提出,與pLSA算法相比,LDA算法對兩個待估計的主題概率分布逡逑矩陣引入了貝葉斯先驗,其生成過程為如圖2-2所示。逡逑O逡逑邐邋M逡逑圖2-2邋LDA算法生成過程逡逑具體的生成過程如下:逡逑(1)
如式(2-2)所示,其中W為給定的單詞序列,目標函數(shù)為平均對數(shù)概率,C為提前制定的目標單詞上下文的大小總數(shù)。逡逑I(Z))=T7ZZlo§PrK邋lw/)^邋/=1邋ceC,逡逑使用了如式(2-3)所示的Soft-max函數(shù),為當前目標單文單詞。模型通過隨機梯度下降法進行訓練,訓練完成的參數(shù)來對目標單詞進行表示。逡逑PrWW,>邋£=二.)走技術(shù)逡逑數(shù)據(jù)中有眾多圖結(jié)構(gòu)的數(shù)據(jù),如社交網(wǎng)絡(luò)用戶關(guān)注關(guān)系、
【相似文獻】
相關(guān)期刊論文 前10條
1 王超瓊;陳s
本文編號:2794355
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2794355.html
最近更新
教材專著