基于網(wǎng)絡(luò)表示學(xué)習(xí)的社區(qū)發(fā)現(xiàn)技術(shù)研究
發(fā)布時(shí)間:2021-08-17 16:39
隨著在線社交網(wǎng)絡(luò)的日趨復(fù)雜,網(wǎng)絡(luò)節(jié)點(diǎn)逐漸成為負(fù)載多源信息的富節(jié)點(diǎn),除了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息,節(jié)點(diǎn)本身的其他信息也是重要的數(shù)據(jù)源,譬如,社交網(wǎng)絡(luò)中用戶的屬性資料和生成文本。現(xiàn)有的社區(qū)發(fā)現(xiàn)算法多數(shù)是針對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)實(shí)現(xiàn)社區(qū)劃分的,并沒有充分利用用戶特征,檢測得到的社區(qū)結(jié)構(gòu)不能準(zhǔn)確反映社交網(wǎng)絡(luò)的組織機(jī)理,對現(xiàn)實(shí)世界社區(qū)發(fā)現(xiàn)問題的研究提出不小的挑戰(zhàn)。針對上述問題,本文從如何融合多源信息來準(zhǔn)確刻畫用戶特征及如何基于用戶的特征表示實(shí)現(xiàn)社區(qū)劃分兩個問題展開研究,主要的研究工作包括以下兩個方面:第一,為了更準(zhǔn)確地刻畫復(fù)雜多源網(wǎng)絡(luò)的用戶特征,研究了一種基于網(wǎng)絡(luò)表示學(xué)習(xí)的用戶表示模型User2vec。首先,建立三個獨(dú)立的特征表示向量。其中,從用戶的屬性信息提取特征并建立屬性表示向量info2vec;從用戶生成文本分離出多粒度的文本內(nèi)容,采用TF-IDF、LDA、Doc2vec多種算法從不同文本內(nèi)容提取特征并生成文本表示向量blog2vec;從用戶的文本內(nèi)容擴(kuò)展稀疏的網(wǎng)絡(luò)結(jié)構(gòu),并將網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)應(yīng)用到擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)中,建立增強(qiáng)網(wǎng)絡(luò)表示向量graph2vec。然后,提出兩種融合多源信息的用戶表示模型User2v...
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
社區(qū)發(fā)現(xiàn)算法總覽圖
綾塵跋律縝?⑾至煊虼嬖詰奈侍庖約懊媼俚奶粽健M?1.1 社區(qū)發(fā)現(xiàn)算法總覽圖1.2.1 非重疊社區(qū)發(fā)現(xiàn)算法社區(qū)發(fā)現(xiàn),從本質(zhì)上講,等同于圖分割問題,即將網(wǎng)絡(luò)的圖結(jié)構(gòu)分割成若干個子圖,其劃分依據(jù)是網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。那么,傳統(tǒng)的圖劃分和圖聚類算法能夠有效地解決簡單的社區(qū)發(fā)現(xiàn)問題。圖劃分算法關(guān)注如何識別網(wǎng)絡(luò)的強(qiáng)弱連邊關(guān)系。Kernighan-Lin 算法[2]采用貪婪的優(yōu)化策略實(shí)現(xiàn)圖劃分,其主要思想是先為網(wǎng)絡(luò)定義一個增益函數(shù),通過貪婪搜索的方式尋找最優(yōu)的社區(qū)劃分結(jié)果,而且此時(shí)的增益函數(shù)值達(dá)到最大。該算法給出最優(yōu)的網(wǎng)絡(luò)劃分,且通過樹狀圖實(shí)現(xiàn)層次社區(qū)結(jié)構(gòu)的可視化,但是該算法的缺點(diǎn)在于需要首先指定兩個子社區(qū)的規(guī)模。另外,譜二分法是另一種應(yīng)用于社區(qū)發(fā)現(xiàn)問題的經(jīng)典算法。如果計(jì)算得到的拉普拉斯矩陣的第二特征值越小,則劃分得到的社區(qū)效果越好。于是,譜二分法劃分社區(qū)的關(guān)鍵在于 Laplacian 矩陣特征值中第二小值的計(jì)算,算法的缺點(diǎn)是多個社區(qū)結(jié)構(gòu)的劃分效率比較低。
圖 1.3 派系過濾算法主要思想示意圖將標(biāo)簽傳播思想應(yīng)用到重疊社區(qū)發(fā)現(xiàn)問題。其中,Steve Gregory 改進(jìn) LPA 算法,提出 COPRA 算法[22]。算法引入標(biāo)簽二元組(c,b),通過計(jì)算鄰接點(diǎn)標(biāo)簽的隸屬度來度量其傳播能力,同時(shí)該算法改變 LPA 算法原先的終止條件,通過跟蹤每輪計(jì)算結(jié)束后剩余標(biāo)簽集合的大小來判斷算法是否結(jié)束,即當(dāng)集合的大小不再變化更新,則算法結(jié)束,對應(yīng)的社區(qū)劃分即為最終的社區(qū)結(jié)構(gòu)。社區(qū)結(jié)構(gòu)是一種局部結(jié)構(gòu),某個社區(qū)的形成只取決于網(wǎng)絡(luò)局部的連接關(guān)系,其他區(qū)域的拓?fù)浣Y(jié)構(gòu)對其無任何影響。于是,Andrea Lancichinetti 等人于 2009 年根據(jù)局部擴(kuò)展優(yōu)化的思想,提出了 LFM 算法[23],以若干個節(jié)點(diǎn)為種子社區(qū),不斷擴(kuò)大節(jié)點(diǎn)社區(qū)的覆蓋范圍,從而迭代生成所有節(jié)點(diǎn)的歸屬社區(qū),得到原始網(wǎng)絡(luò)結(jié)構(gòu)的最終社區(qū)劃分,但是算法發(fā)現(xiàn)的社區(qū)結(jié)構(gòu)重疊程度較低。除此之外,2010 年,ConradLee 等人提出了另一種局部擴(kuò)展優(yōu)化算法 GCE[24],可以發(fā)現(xiàn)重疊度更高的社區(qū)結(jié)構(gòu)。Huang 等人于 2011 年提出了一種無參的層次網(wǎng)絡(luò)聚類算法 DenShrink[25],將基于密度的層次聚類算法與模塊度優(yōu)化算法相結(jié)合,解決大規(guī)模加權(quán)有向網(wǎng)絡(luò)的層次社區(qū)結(jié)構(gòu)檢測問題。
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)表示學(xué)習(xí)綜述[J]. 涂存超,楊成,劉知遠(yuǎn),孫茂松. 中國科學(xué):信息科學(xué). 2017(08)
[2]網(wǎng)絡(luò)表示學(xué)習(xí)[J]. 陳維政,張巖,李曉明. 大數(shù)據(jù). 2015(03)
[3]一種基于主題相似性和網(wǎng)絡(luò)拓?fù)涞奈⒉┥鐓^(qū)發(fā)現(xiàn)方法[J]. 王衛(wèi)平,范田. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2013(06)
[4]復(fù)雜網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法研究新進(jìn)展[J]. 駱志剛,丁凡,蔣曉舟,石金龍. 國防科技大學(xué)學(xué)報(bào). 2011(01)
本文編號:3348118
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
社區(qū)發(fā)現(xiàn)算法總覽圖
綾塵跋律縝?⑾至煊虼嬖詰奈侍庖約懊媼俚奶粽健M?1.1 社區(qū)發(fā)現(xiàn)算法總覽圖1.2.1 非重疊社區(qū)發(fā)現(xiàn)算法社區(qū)發(fā)現(xiàn),從本質(zhì)上講,等同于圖分割問題,即將網(wǎng)絡(luò)的圖結(jié)構(gòu)分割成若干個子圖,其劃分依據(jù)是網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。那么,傳統(tǒng)的圖劃分和圖聚類算法能夠有效地解決簡單的社區(qū)發(fā)現(xiàn)問題。圖劃分算法關(guān)注如何識別網(wǎng)絡(luò)的強(qiáng)弱連邊關(guān)系。Kernighan-Lin 算法[2]采用貪婪的優(yōu)化策略實(shí)現(xiàn)圖劃分,其主要思想是先為網(wǎng)絡(luò)定義一個增益函數(shù),通過貪婪搜索的方式尋找最優(yōu)的社區(qū)劃分結(jié)果,而且此時(shí)的增益函數(shù)值達(dá)到最大。該算法給出最優(yōu)的網(wǎng)絡(luò)劃分,且通過樹狀圖實(shí)現(xiàn)層次社區(qū)結(jié)構(gòu)的可視化,但是該算法的缺點(diǎn)在于需要首先指定兩個子社區(qū)的規(guī)模。另外,譜二分法是另一種應(yīng)用于社區(qū)發(fā)現(xiàn)問題的經(jīng)典算法。如果計(jì)算得到的拉普拉斯矩陣的第二特征值越小,則劃分得到的社區(qū)效果越好。于是,譜二分法劃分社區(qū)的關(guān)鍵在于 Laplacian 矩陣特征值中第二小值的計(jì)算,算法的缺點(diǎn)是多個社區(qū)結(jié)構(gòu)的劃分效率比較低。
圖 1.3 派系過濾算法主要思想示意圖將標(biāo)簽傳播思想應(yīng)用到重疊社區(qū)發(fā)現(xiàn)問題。其中,Steve Gregory 改進(jìn) LPA 算法,提出 COPRA 算法[22]。算法引入標(biāo)簽二元組(c,b),通過計(jì)算鄰接點(diǎn)標(biāo)簽的隸屬度來度量其傳播能力,同時(shí)該算法改變 LPA 算法原先的終止條件,通過跟蹤每輪計(jì)算結(jié)束后剩余標(biāo)簽集合的大小來判斷算法是否結(jié)束,即當(dāng)集合的大小不再變化更新,則算法結(jié)束,對應(yīng)的社區(qū)劃分即為最終的社區(qū)結(jié)構(gòu)。社區(qū)結(jié)構(gòu)是一種局部結(jié)構(gòu),某個社區(qū)的形成只取決于網(wǎng)絡(luò)局部的連接關(guān)系,其他區(qū)域的拓?fù)浣Y(jié)構(gòu)對其無任何影響。于是,Andrea Lancichinetti 等人于 2009 年根據(jù)局部擴(kuò)展優(yōu)化的思想,提出了 LFM 算法[23],以若干個節(jié)點(diǎn)為種子社區(qū),不斷擴(kuò)大節(jié)點(diǎn)社區(qū)的覆蓋范圍,從而迭代生成所有節(jié)點(diǎn)的歸屬社區(qū),得到原始網(wǎng)絡(luò)結(jié)構(gòu)的最終社區(qū)劃分,但是算法發(fā)現(xiàn)的社區(qū)結(jié)構(gòu)重疊程度較低。除此之外,2010 年,ConradLee 等人提出了另一種局部擴(kuò)展優(yōu)化算法 GCE[24],可以發(fā)現(xiàn)重疊度更高的社區(qū)結(jié)構(gòu)。Huang 等人于 2011 年提出了一種無參的層次網(wǎng)絡(luò)聚類算法 DenShrink[25],將基于密度的層次聚類算法與模塊度優(yōu)化算法相結(jié)合,解決大規(guī)模加權(quán)有向網(wǎng)絡(luò)的層次社區(qū)結(jié)構(gòu)檢測問題。
【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)表示學(xué)習(xí)綜述[J]. 涂存超,楊成,劉知遠(yuǎn),孫茂松. 中國科學(xué):信息科學(xué). 2017(08)
[2]網(wǎng)絡(luò)表示學(xué)習(xí)[J]. 陳維政,張巖,李曉明. 大數(shù)據(jù). 2015(03)
[3]一種基于主題相似性和網(wǎng)絡(luò)拓?fù)涞奈⒉┥鐓^(qū)發(fā)現(xiàn)方法[J]. 王衛(wèi)平,范田. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2013(06)
[4]復(fù)雜網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)算法研究新進(jìn)展[J]. 駱志剛,丁凡,蔣曉舟,石金龍. 國防科技大學(xué)學(xué)報(bào). 2011(01)
本文編號:3348118
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3348118.html
最近更新
教材專著