網(wǎng)絡(luò)新聞熱點話題檢測分析與趨勢研究
【圖文】:
圖 1.1 本文話題檢測與趨勢研究流程圖1.3 本文的創(chuàng)新之處本文具體的創(chuàng)新點從研究內(nèi)容以及研究方法上分別闡述。1.3.1 研究內(nèi)容上的創(chuàng)新國內(nèi)外研究在熱門話題檢測過程中基本采用聚類算法,并沒有將分類考慮進去,本文則在話題聚類之前對網(wǎng)絡(luò)新聞進行分類,從而將網(wǎng)絡(luò)新聞按照不同類別劃分,這樣不僅可以減少話題檢測時聚類的計算量,并且還可以得到不同類別下的熱門話題。1.3.2 研究方法上的創(chuàng)新研究方法的創(chuàng)新主要體現(xiàn)在 2 個方面。(1)新聞話題模型的創(chuàng)新新聞話題模型是話題檢測的核心之一,目前廣泛使用的方法有向量空間模型與主題模型,本文引入 Word2vec 模型,并與傳統(tǒng)的主題模型 LDA 聯(lián)合建模的方式應(yīng)用到話題
第 2 章 文本表示模型及相似度算法話題檢測的前提在于話題模型的構(gòu)建,而構(gòu)建話題模型則需要對文本預(yù)處理。本章首先對爬取下來的數(shù)據(jù)進行預(yù)處理,采用 Word2vec 與 LDA 模型對文本建模,,以及嘗試利用 Word2vec 與 LDA 模型聯(lián)合建模的方式來計算文本相似度。2.1 文本預(yù)處理文本預(yù)處理階段是將文本數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的過程,首先本文采用 python 網(wǎng)絡(luò)爬蟲技術(shù)將爬取的下來的網(wǎng)絡(luò)新聞形成一個數(shù)據(jù)集,進而對文本進行中文分詞,將文本切割成分散的獨立詞集,并對各詞語進行詞性標注,并構(gòu)建停用詞表去除無關(guān)的干擾詞。本文數(shù)據(jù)來源于 2018 年 1 月份全月的新浪、搜狐、網(wǎng)易等門戶網(wǎng)站的新聞數(shù)據(jù),主要包括:國內(nèi)、國際、社會、娛樂、科技、軍事、體育、財經(jīng)八個類別。采用 python的爬蟲框架進行爬取。爬取新聞網(wǎng)頁鏈接的四個字段:新聞標題、新聞發(fā)布時間、新聞類別、新聞內(nèi)容。爬取的數(shù)據(jù)格式如圖 2.1 所示,
【學位授予單位】:首都經(jīng)濟貿(mào)易大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:F724.6;F274
【參考文獻】
相關(guān)期刊論文 前10條
1 李躍鵬;金翠;及俊川;;基于word2vec的關(guān)鍵詞提取算法[J];科研信息化技術(shù)與應(yīng)用;2015年04期
2 賀敏;杜攀;張瑾;劉悅;程學旗;;基于動量模型的微博突發(fā)話題檢測方法[J];計算機研究與發(fā)展;2015年05期
3 賈璦瑋;;基于劃分的聚類算法研究綜述[J];電子設(shè)計工程;2014年23期
4 方星星;呂永強;;基于改進的single-pass網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)研究[J];計算機與數(shù)字工程;2014年07期
5 何躍;帥馬戀;馮韻;;中文微博熱點話題挖掘研究[J];統(tǒng)計與信息論壇;2014年06期
6 張小明;李舟軍;巢文涵;;基于增量型聚類的自動話題檢測研究[J];軟件學報;2012年06期
7 單斌;李芳;;基于LDA話題演化研究方法綜述[J];中文信息學報;2010年06期
8 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;主題模型LDA的多文檔自動文摘[J];智能系統(tǒng)學報;2010年02期
9 俞輝;;基于PLSA模型的Web用戶聚類算法研究[J];計算機工程與科學;2008年07期
10 王煜;王正歐;白石;;用于文本分類的改進KNN算法[J];中文信息學報;2007年03期
相關(guān)碩士學位論文 前2條
1 程嘉暉;基于深度卷積神經(jīng)網(wǎng)絡(luò)的飛行器圖像識別算法研究[D];浙江大學;2017年
2 馬曉姝;基于LDA模型的新聞話題發(fā)現(xiàn)研究[D];東北師范大學;2014年
本文編號:2711748
本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/2711748.html