基于特征選擇和詞向量加權(quán)的新聞話題檢測研究
發(fā)布時間:2023-12-02 08:57
話題檢測是處理互聯(lián)網(wǎng)新聞數(shù)據(jù)的一種重要方法。主要任務(wù)是從新聞數(shù)據(jù)中自動檢測和組織潛在的話題信息,對網(wǎng)絡(luò)中分散的信息進行有效地匯集和整理,幫助人們從眾多數(shù)據(jù)中發(fā)現(xiàn)未知話題事件,使人們能夠從整體上了解該事件的詳細(xì)內(nèi)容,有效解決信息過載問題。在話題檢測任務(wù)中,文本聚類思想是一種有效的解決方法,基于文本聚類思想的話題檢測模型主要包括數(shù)據(jù)獲取、特征選擇、文本模型化以及聚類策略,本文主要從新聞文本的特征選擇和文本建模表示兩個方面對新聞話題檢測進行研究。(1)針對原始新聞文本噪聲特征較多,無監(jiān)督度特征選擇方法特征選擇能力有限,而有監(jiān)督特征選擇方法無法直接以用于話題檢測任務(wù),提出一種基于多K-means聚類結(jié)果的特征選擇方法(Feature Selection Method based on Multi-K-means Clustering Results,FS-MKCR)。該方法利用K-means聚類結(jié)果取決于集群數(shù)目和初始中心點的選取這一特點,通過在不同初始條件下的K-means聚類結(jié)果上采用有監(jiān)督的特征選擇方法過濾噪聲特征,獲得最優(yōu)特征子集。該方法將有監(jiān)督特征選擇方法應(yīng)用于新聞話題檢測這一無監(jiān)督...
【文章頁數(shù)】:48 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
§1.1 研究背景及意義
§1.2 研究現(xiàn)狀
§1.3 研究內(nèi)容
§1.4 本文結(jié)構(gòu)
第二章 相關(guān)理論及技術(shù)
§2.1 數(shù)據(jù)源獲取方法
§2.1.1 網(wǎng)絡(luò)爬蟲
§2.1.2 Scrapy爬蟲框架
§2.2 特征選擇
§2.2.1 信息增益
§2.2.2 卡方統(tǒng)計
§2.2.3 期望交叉熵
§2.2.4 文檔頻率
§2.3 文本模型化
§2.3.1 向量空間模型
§2.3.2 主題模型
§2.3.3 詞嵌入模型
§2.4 話題檢測的聚類算法
§2.4.1 基于層次的聚類算法
§2.4.2 基于劃分的聚類算法
§2.4.3 基于密度的聚類算法
§2.5 本章小結(jié)
第三章 基于FS-MKCR的新聞話題檢測
§3.1 問題分析
§3.2 基于FS-MKCR的新聞話題檢測模型
§3.2.1 基于多K-means聚類結(jié)果的特征選擇方法
§3.2.2 基于FS-MKCR的新聞話題檢測模型
§3.3 實驗結(jié)果及分析
§3.3.1 實驗數(shù)據(jù)
§3.3.2 性能評價指標(biāo)
§3.3.3 實驗預(yù)處理和實驗設(shè)置
§3.3.4 實驗結(jié)果及分析
§3.4 本章小結(jié)
第四章 基于改進期望交叉熵特征選擇的新聞話題檢測
§4.1 問題分析
§4.2 基于改進期望交叉熵的新聞話題檢測模型
§4.2.1 期望交叉熵算法的改進
§4.2.2 基于改進期望交叉熵算法的新聞話題檢測模型
§4.3 實驗結(jié)果及分析
§4.4 本章小結(jié)
第五章 基于詞向量加權(quán)的新聞話題檢測
§5.1 問題分析
§5.2 基于word2vec加權(quán)的新聞話題檢測模型
§5.2.1 基于word2vec加權(quán)的文本模型化表示
§5.2.2 基于Word2vec加權(quán)的新聞話題檢測模型
§5.3 實驗結(jié)果及分析
§5.4 本章小結(jié)
第六章 總結(jié)與展望
§6.1 工作總結(jié)
§6.2 下一步工作
參考文獻
致謝
作者在攻讀碩士期間主要研究成果
本文編號:3869336
【文章頁數(shù)】:48 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
§1.1 研究背景及意義
§1.2 研究現(xiàn)狀
§1.3 研究內(nèi)容
§1.4 本文結(jié)構(gòu)
第二章 相關(guān)理論及技術(shù)
§2.1 數(shù)據(jù)源獲取方法
§2.1.1 網(wǎng)絡(luò)爬蟲
§2.1.2 Scrapy爬蟲框架
§2.2 特征選擇
§2.2.1 信息增益
§2.2.2 卡方統(tǒng)計
§2.2.3 期望交叉熵
§2.2.4 文檔頻率
§2.3 文本模型化
§2.3.1 向量空間模型
§2.3.2 主題模型
§2.3.3 詞嵌入模型
§2.4 話題檢測的聚類算法
§2.4.1 基于層次的聚類算法
§2.4.2 基于劃分的聚類算法
§2.4.3 基于密度的聚類算法
§2.5 本章小結(jié)
第三章 基于FS-MKCR的新聞話題檢測
§3.1 問題分析
§3.2 基于FS-MKCR的新聞話題檢測模型
§3.2.1 基于多K-means聚類結(jié)果的特征選擇方法
§3.2.2 基于FS-MKCR的新聞話題檢測模型
§3.3 實驗結(jié)果及分析
§3.3.1 實驗數(shù)據(jù)
§3.3.2 性能評價指標(biāo)
§3.3.3 實驗預(yù)處理和實驗設(shè)置
§3.3.4 實驗結(jié)果及分析
§3.4 本章小結(jié)
第四章 基于改進期望交叉熵特征選擇的新聞話題檢測
§4.1 問題分析
§4.2 基于改進期望交叉熵的新聞話題檢測模型
§4.2.1 期望交叉熵算法的改進
§4.2.2 基于改進期望交叉熵算法的新聞話題檢測模型
§4.3 實驗結(jié)果及分析
§4.4 本章小結(jié)
第五章 基于詞向量加權(quán)的新聞話題檢測
§5.1 問題分析
§5.2 基于word2vec加權(quán)的新聞話題檢測模型
§5.2.1 基于word2vec加權(quán)的文本模型化表示
§5.2.2 基于Word2vec加權(quán)的新聞話題檢測模型
§5.3 實驗結(jié)果及分析
§5.4 本章小結(jié)
第六章 總結(jié)與展望
§6.1 工作總結(jié)
§6.2 下一步工作
參考文獻
致謝
作者在攻讀碩士期間主要研究成果
本文編號:3869336
本文鏈接:http://www.sikaile.net/xinwenchuanbolunwen/3869336.html
最近更新
教材專著