融合word2vec和Single-Pass的微博話題檢測方法研究
發(fā)布時間:2021-01-01 06:45
近年來,微博借助于其自身的草根性、便捷性和對時事的迅速傳播性越來越受到大眾的歡迎,成為中國大眾了解時事和參與熱門話題討論的主流媒體。微博是一種通過關注機制共享的短文本實時信息的廣播式社交媒體和網(wǎng)絡平臺,基于該平臺信息可以通過用戶關系進行信息共享、傳播和獲取。用戶間的相互交流和傳播產生了多種多樣的話題,微博的即時性極大的推進了話題的發(fā)展,形成并傳播了熱門話題。在一些引起廣大網(wǎng)友討論的微博話題中,參與閱讀和互動的用戶數(shù)量已達到過數(shù)千萬,這些話題通常蘊含著重要的信息,并具有很強的社會影響力度,引起了眾多專家學者的關注。因此,如何從大量的微博文本中準確的挖掘出熱門話題具有重要意義;诖,本文研究的工作圍繞提高微博話題檢測的準確性主要包括以下三個方面:(1)提出一種基于Word2vec和句子結構的內容樹文本表示方法,提高計算文本相似度的準確性首先,在文本中提取特征詞,將該特征詞與文本分詞后的其它詞語根據(jù)皮爾遜相關系數(shù)進行相關度計算,創(chuàng)建內容樹;其次,借助內容樹將詞語根據(jù)相鄰詞之間的相關性構造依賴于句子結構的詞向量;然后對得到的所有詞向量求平均值得到句向量表示;最后將該方法通過中文文本分類和文本...
【文章來源】:山東師范大學山東省
【文章頁數(shù)】:44 頁
【學位級別】:碩士
【部分圖文】:
CBOW模型
a圖?2-4?PV-DBOW?模型??eC模型的優(yōu)點是能夠成功捕獲對于文檔表示有用但未知的功能,而為固定的大小,不會出現(xiàn)維度災難的問題;同時存在的缺點在于特缺乏解釋性,文檔向量中的每個值都不能提供任何有關文檔的明確
圖3-丨某影評內容樹示例??在該部分中,根據(jù)TF-IDF和皮爾遜相關系數(shù)可以對文本的詞語根據(jù)詞語之間的相??關度建立內容樹,如圖3-2所示。建立內容樹后,我們需要根據(jù)建立的內容樹進行更新??詞向量,將新更新后的詞向量進行求平均值得到句向量的表示。??ITF-1DF?‘?|特征伉W大的詞??卜本対1?1?(wordl)??Word2vcc??詞向置?丨乂'‘'、.!■’(』_創(chuàng)違內容樹??圖3-2創(chuàng)建內容樹流程??12??
【參考文獻】:
期刊論文
[1]基于word2vec詞模型的中文短文本分類方法[J]. 高明霞,李經(jīng)緯. 山東大學學報(工學版). 2019(02)
[2]一種基于word2vec的文本分類方法[J]. 薛煒明,侯霞,李寧. 北京信息科技大學學報(自然科學版). 2018(01)
[3]基于Word2vec的句子語義相似度計算研究[J]. 李曉,解輝,李立杰. 計算機科學. 2017(09)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]網(wǎng)絡輿情話題檢測技術研究[J]. 張尚韜. 廣東石油化工學院學報. 2017(03)
[6]基于改進的OLDA模型話題檢測及演化分析[J]. 余本功,張衛(wèi)春,王龍飛. 情報雜志. 2017(02)
[7]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機科學. 2016(06)
[8]基于LDA模型和多層聚類的微博話題檢測[J]. 劉紅兵,李文坤,張仰森. 計算機技術與發(fā)展. 2016(06)
[9]基于LDA的新聞話題子話題劃分方法[J]. 趙愛華,劉培玉,鄭燕. 小型微型計算機系統(tǒng). 2013(04)
[10]國內中文自動分詞技術研究綜述[J]. 奉國和,鄭偉. 圖書情報工作. 2011(02)
博士論文
[1]基于內容的互聯(lián)網(wǎng)輿情信息挖掘關鍵技術研究[D]. 劉玉國.山東大學 2011
碩士論文
[1]基于半監(jiān)督DPMM的新聞話題檢測研究[D]. 姚冬冬.河北大學 2017
[2]基于主題模型的話題聚類算法的研究[D]. 張丹.北京郵電大學 2017
[3]基于大數(shù)據(jù)的互聯(lián)網(wǎng)熱點話題挖掘的研究與實現(xiàn)[D]. 趙宗飛.華南理工大學 2016
[4]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學 2016
[5]深度詞匯網(wǎng)絡學習輿情監(jiān)測關鍵技術的研究[D]. 馮佳明.北京化工大學 2015
[6]網(wǎng)絡輿情的熱點檢測及趨勢分析研究[D]. 張敬.華南理工大學 2013
[7]基于文本的網(wǎng)絡輿情話題跟蹤的研究[D]. 廖秀玲.昆明理工大學 2012
[8]中文短語相似度計算方法研究及應用[D]. 王瑩瑩.長沙理工大學 2008
本文編號:2951122
【文章來源】:山東師范大學山東省
【文章頁數(shù)】:44 頁
【學位級別】:碩士
【部分圖文】:
CBOW模型
a圖?2-4?PV-DBOW?模型??eC模型的優(yōu)點是能夠成功捕獲對于文檔表示有用但未知的功能,而為固定的大小,不會出現(xiàn)維度災難的問題;同時存在的缺點在于特缺乏解釋性,文檔向量中的每個值都不能提供任何有關文檔的明確
圖3-丨某影評內容樹示例??在該部分中,根據(jù)TF-IDF和皮爾遜相關系數(shù)可以對文本的詞語根據(jù)詞語之間的相??關度建立內容樹,如圖3-2所示。建立內容樹后,我們需要根據(jù)建立的內容樹進行更新??詞向量,將新更新后的詞向量進行求平均值得到句向量的表示。??ITF-1DF?‘?|特征伉W大的詞??卜本対1?1?(wordl)??Word2vcc??詞向置?丨乂'‘'、.!■’(』_創(chuàng)違內容樹??圖3-2創(chuàng)建內容樹流程??12??
【參考文獻】:
期刊論文
[1]基于word2vec詞模型的中文短文本分類方法[J]. 高明霞,李經(jīng)緯. 山東大學學報(工學版). 2019(02)
[2]一種基于word2vec的文本分類方法[J]. 薛煒明,侯霞,李寧. 北京信息科技大學學報(自然科學版). 2018(01)
[3]基于Word2vec的句子語義相似度計算研究[J]. 李曉,解輝,李立杰. 計算機科學. 2017(09)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]網(wǎng)絡輿情話題檢測技術研究[J]. 張尚韜. 廣東石油化工學院學報. 2017(03)
[6]基于改進的OLDA模型話題檢測及演化分析[J]. 余本功,張衛(wèi)春,王龍飛. 情報雜志. 2017(02)
[7]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機科學. 2016(06)
[8]基于LDA模型和多層聚類的微博話題檢測[J]. 劉紅兵,李文坤,張仰森. 計算機技術與發(fā)展. 2016(06)
[9]基于LDA的新聞話題子話題劃分方法[J]. 趙愛華,劉培玉,鄭燕. 小型微型計算機系統(tǒng). 2013(04)
[10]國內中文自動分詞技術研究綜述[J]. 奉國和,鄭偉. 圖書情報工作. 2011(02)
博士論文
[1]基于內容的互聯(lián)網(wǎng)輿情信息挖掘關鍵技術研究[D]. 劉玉國.山東大學 2011
碩士論文
[1]基于半監(jiān)督DPMM的新聞話題檢測研究[D]. 姚冬冬.河北大學 2017
[2]基于主題模型的話題聚類算法的研究[D]. 張丹.北京郵電大學 2017
[3]基于大數(shù)據(jù)的互聯(lián)網(wǎng)熱點話題挖掘的研究與實現(xiàn)[D]. 趙宗飛.華南理工大學 2016
[4]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學 2016
[5]深度詞匯網(wǎng)絡學習輿情監(jiān)測關鍵技術的研究[D]. 馮佳明.北京化工大學 2015
[6]網(wǎng)絡輿情的熱點檢測及趨勢分析研究[D]. 張敬.華南理工大學 2013
[7]基于文本的網(wǎng)絡輿情話題跟蹤的研究[D]. 廖秀玲.昆明理工大學 2012
[8]中文短語相似度計算方法研究及應用[D]. 王瑩瑩.長沙理工大學 2008
本文編號:2951122
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2951122.html
最近更新
教材專著