基于高校BBS的輿情監(jiān)測(cè)系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-07-20 06:55
本文在分析和掌握了輿情監(jiān)測(cè)系統(tǒng)的構(gòu)成和運(yùn)行流程的基礎(chǔ)之上,研究并實(shí)現(xiàn)了一套針對(duì)高校BBS論壇的輿情監(jiān)測(cè)系統(tǒng)。本系統(tǒng)分為四個(gè)部分,按照工作流程順序?yàn)椋孩倬W(wǎng)頁(yè)抓取,使用網(wǎng)絡(luò)爬蟲(chóng)抓取指定站點(diǎn)的WEB網(wǎng)頁(yè),獲得第一手資料;②信息預(yù)處理,對(duì)抓取下來(lái)的網(wǎng)頁(yè)進(jìn)行信息抽取、中文分詞、詞性標(biāo)注、入庫(kù)等操作,為輿情分析準(zhǔn)備數(shù)據(jù);③輿情分析,對(duì)數(shù)據(jù)庫(kù)中的各種信息加以綜合實(shí)現(xiàn):熱點(diǎn)主題發(fā)現(xiàn)、每鈤統(tǒng)計(jì)、情感傾向性分析、發(fā)展趨勢(shì)預(yù)測(cè)、話(huà)題檢測(cè)與跟蹤等;④系統(tǒng)展示,將輿情分析的結(jié)果呈獻(xiàn)給用戶(hù),為用戶(hù)的決策提供必要的支持。本文的研究成果如下:(1)使用開(kāi)源工具構(gòu)建了一個(gè)具有針對(duì)性的網(wǎng)絡(luò)爬蟲(chóng)。(2)提出一個(gè)集時(shí)間、帖子數(shù)量、查看數(shù)量以及參與人數(shù)的熱點(diǎn)主題發(fā)現(xiàn)算法。實(shí)驗(yàn)表明,該算法比單一指標(biāo)具有更準(zhǔn)確更有效。(3)提出一個(gè)基于情感詞詞典、否定詞和程度詞的情感傾向值計(jì)算方法,該算法逆向依次對(duì)情感詞的傾向值累加求和,并對(duì)傾向值進(jìn)行平均處理,降低累加的影響。實(shí)驗(yàn)表明,該算法具有較好的效果。(4)本文使用層次聚類(lèi)和1NN分類(lèi)算法實(shí)現(xiàn)話(huà)題的檢測(cè)與跟蹤。通過(guò)實(shí)驗(yàn)獲得相關(guān)的閾值,并對(duì)層次聚類(lèi)算法增加“絕對(duì)相似度閾值”這一限制條件,縮減...
【文章來(lái)源】:石家莊鐵道大學(xué)河北省
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文內(nèi)容及組織
第二章 網(wǎng)絡(luò)輿情研究相關(guān)技術(shù)分析
2.1 網(wǎng)絡(luò)爬蟲(chóng)
2.2 網(wǎng)頁(yè)解析
2.3 話(huà)題檢測(cè)與跟蹤技術(shù)
2.4 話(huà)題情感傾向性分析
2.5 話(huà)題發(fā)展趨勢(shì)預(yù)測(cè)
2.6 檢索服務(wù)和多線(xiàn)程優(yōu)化
2.7 本章小結(jié)
第三章 BBS輿情監(jiān)測(cè)系統(tǒng)分析
3.1 系統(tǒng)功能分析
3.1.1 系統(tǒng)體系結(jié)構(gòu)分析
3.1.2 網(wǎng)頁(yè)抓取及預(yù)處理功能分析
3.1.3 信息預(yù)處理功能分析
3.1.4 輿情分析功能
3.1.5 系統(tǒng)展示功能分析
3.2 系統(tǒng)流程分析
3.3 系統(tǒng)使用各類(lèi)詞典分析
3.4 系統(tǒng)數(shù)據(jù)庫(kù)分析與設(shè)計(jì)
3.5 系統(tǒng)性能分析
3.6 本章小結(jié)
第四章 網(wǎng)頁(yè)抓取和信息預(yù)處理
4.1 網(wǎng)頁(yè)抓取
4.1.1 BBS網(wǎng)站分析
4.1.2 構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)
4.1.3 優(yōu)化網(wǎng)絡(luò)爬蟲(chóng)
4.1.4 網(wǎng)絡(luò)爬蟲(chóng)性能比較
4.2 信息預(yù)處理
4.2.1 HTMLPaser解析頁(yè)面
4.2.2 合并同主題文檔
4.2.3 存入數(shù)據(jù)庫(kù)和存入索引庫(kù)
4.2.4 中文分詞
4.3 本章小結(jié)
第五章 輿情分析
5.1 熱點(diǎn)主題發(fā)現(xiàn)
5.2 情感傾向性分析
5.3 每日統(tǒng)計(jì)
5.4 話(huà)題分析
5.4.1 權(quán)重計(jì)算
5.4.2 相似度計(jì)算
5.4.3 話(huà)題檢測(cè)
5.4.4 話(huà)題跟蹤
5.5 趨勢(shì)預(yù)測(cè)
5.6 實(shí)驗(yàn)分析
5.6.1 熱點(diǎn)主題發(fā)現(xiàn)實(shí)驗(yàn)分析
5.6.2 情感傾向性實(shí)驗(yàn)分析
5.6.3 話(huà)題檢測(cè)實(shí)驗(yàn)
5.6.4 話(huà)題跟蹤實(shí)驗(yàn)
5.6.5 發(fā)展趨勢(shì)分析實(shí)驗(yàn)
5.7 本章小結(jié)
第六章 高校BBS輿情監(jiān)測(cè)系統(tǒng)實(shí)現(xiàn)
6.1 系統(tǒng)首頁(yè)
6.2 立即抓取
6.3 每日統(tǒng)計(jì)
6.4 檢索服務(wù)
6.5 情感分析
6.6 話(huà)題分析
6.7 本章小結(jié)
第七章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷、攻讀碩士學(xué)位期間發(fā)表的論文
【參考文獻(xiàn)】:
期刊論文
[1]基于Larbin的網(wǎng)絡(luò)爬蟲(chóng)體系結(jié)構(gòu)的研究與改進(jìn)[J]. 李躍健,朱程榮. 計(jì)算機(jī)技術(shù)與發(fā)展. 2012(07)
[2]基于Nutch的圖情博客搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 趙蓉英,陳必坤. 情報(bào)科學(xué). 2012(04)
[3]高校BBS輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳立章,李斌,陳曉鵬. 微處理機(jī). 2012(01)
[4]基于Single-Pass的網(wǎng)絡(luò)話(huà)題在線(xiàn)聚類(lèi)方法研究[J]. 朱恒民,朱衛(wèi)未. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2011(12)
[5]中文文本情感分析綜述[J]. 魏韡,向陽(yáng),陳千. 計(jì)算機(jī)應(yīng)用. 2011(12)
[6]Gompertz曲線(xiàn)參數(shù)估計(jì)新方法(英文)[J]. 胡曉華,虞敏,吉承儒. 數(shù)學(xué)理論與應(yīng)用. 2011(02)
[7]基于HTMLParser的Web文獻(xiàn)信息提取[J]. 龔真平. 軟件導(dǎo)刊. 2011(02)
[8]面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實(shí)現(xiàn)[J]. 彭冬,蔡皖東. 計(jì)算機(jī)工程與科學(xué). 2011(01)
[9]文本傾向性分析綜述[J]. 厲小軍,戴霖,施寒瀟,黃琦. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2011(07)
[10]基于Web的實(shí)驗(yàn)室互聯(lián)網(wǎng)輿情分析處理系統(tǒng)的研究與實(shí)現(xiàn)[J]. 許峰. 科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì). 2011(01)
碩士論文
[1]基于KNN算法的中文Web文本分類(lèi)技術(shù)研究[D]. 劉輝.遼寧工程技術(shù)大學(xué) 2010
[2]樸素貝葉斯分類(lèi)器的研究與應(yīng)用[D]. 王國(guó)才.重慶交通大學(xué) 2010
[3]校園BBS輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李婷.華中科技大學(xué) 2009
[4]互聯(lián)網(wǎng)輿情監(jiān)測(cè)分析系統(tǒng)實(shí)現(xiàn)[D]. 高洪杰.復(fù)旦大學(xué) 2009
[5]基于用戶(hù)瀏覽行為的網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)模型研究[D]. 羅亞平.北京郵電大學(xué) 2008
本文編號(hào):3292366
【文章來(lái)源】:石家莊鐵道大學(xué)河北省
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文內(nèi)容及組織
第二章 網(wǎng)絡(luò)輿情研究相關(guān)技術(shù)分析
2.1 網(wǎng)絡(luò)爬蟲(chóng)
2.2 網(wǎng)頁(yè)解析
2.3 話(huà)題檢測(cè)與跟蹤技術(shù)
2.4 話(huà)題情感傾向性分析
2.5 話(huà)題發(fā)展趨勢(shì)預(yù)測(cè)
2.6 檢索服務(wù)和多線(xiàn)程優(yōu)化
2.7 本章小結(jié)
第三章 BBS輿情監(jiān)測(cè)系統(tǒng)分析
3.1 系統(tǒng)功能分析
3.1.1 系統(tǒng)體系結(jié)構(gòu)分析
3.1.2 網(wǎng)頁(yè)抓取及預(yù)處理功能分析
3.1.3 信息預(yù)處理功能分析
3.1.4 輿情分析功能
3.1.5 系統(tǒng)展示功能分析
3.2 系統(tǒng)流程分析
3.3 系統(tǒng)使用各類(lèi)詞典分析
3.4 系統(tǒng)數(shù)據(jù)庫(kù)分析與設(shè)計(jì)
3.5 系統(tǒng)性能分析
3.6 本章小結(jié)
第四章 網(wǎng)頁(yè)抓取和信息預(yù)處理
4.1 網(wǎng)頁(yè)抓取
4.1.1 BBS網(wǎng)站分析
4.1.2 構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)
4.1.3 優(yōu)化網(wǎng)絡(luò)爬蟲(chóng)
4.1.4 網(wǎng)絡(luò)爬蟲(chóng)性能比較
4.2 信息預(yù)處理
4.2.1 HTMLPaser解析頁(yè)面
4.2.2 合并同主題文檔
4.2.3 存入數(shù)據(jù)庫(kù)和存入索引庫(kù)
4.2.4 中文分詞
4.3 本章小結(jié)
第五章 輿情分析
5.1 熱點(diǎn)主題發(fā)現(xiàn)
5.2 情感傾向性分析
5.3 每日統(tǒng)計(jì)
5.4 話(huà)題分析
5.4.1 權(quán)重計(jì)算
5.4.2 相似度計(jì)算
5.4.3 話(huà)題檢測(cè)
5.4.4 話(huà)題跟蹤
5.5 趨勢(shì)預(yù)測(cè)
5.6 實(shí)驗(yàn)分析
5.6.1 熱點(diǎn)主題發(fā)現(xiàn)實(shí)驗(yàn)分析
5.6.2 情感傾向性實(shí)驗(yàn)分析
5.6.3 話(huà)題檢測(cè)實(shí)驗(yàn)
5.6.4 話(huà)題跟蹤實(shí)驗(yàn)
5.6.5 發(fā)展趨勢(shì)分析實(shí)驗(yàn)
5.7 本章小結(jié)
第六章 高校BBS輿情監(jiān)測(cè)系統(tǒng)實(shí)現(xiàn)
6.1 系統(tǒng)首頁(yè)
6.2 立即抓取
6.3 每日統(tǒng)計(jì)
6.4 檢索服務(wù)
6.5 情感分析
6.6 話(huà)題分析
6.7 本章小結(jié)
第七章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷、攻讀碩士學(xué)位期間發(fā)表的論文
【參考文獻(xiàn)】:
期刊論文
[1]基于Larbin的網(wǎng)絡(luò)爬蟲(chóng)體系結(jié)構(gòu)的研究與改進(jìn)[J]. 李躍健,朱程榮. 計(jì)算機(jī)技術(shù)與發(fā)展. 2012(07)
[2]基于Nutch的圖情博客搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J]. 趙蓉英,陳必坤. 情報(bào)科學(xué). 2012(04)
[3]高校BBS輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 陳立章,李斌,陳曉鵬. 微處理機(jī). 2012(01)
[4]基于Single-Pass的網(wǎng)絡(luò)話(huà)題在線(xiàn)聚類(lèi)方法研究[J]. 朱恒民,朱衛(wèi)未. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2011(12)
[5]中文文本情感分析綜述[J]. 魏韡,向陽(yáng),陳千. 計(jì)算機(jī)應(yīng)用. 2011(12)
[6]Gompertz曲線(xiàn)參數(shù)估計(jì)新方法(英文)[J]. 胡曉華,虞敏,吉承儒. 數(shù)學(xué)理論與應(yīng)用. 2011(02)
[7]基于HTMLParser的Web文獻(xiàn)信息提取[J]. 龔真平. 軟件導(dǎo)刊. 2011(02)
[8]面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實(shí)現(xiàn)[J]. 彭冬,蔡皖東. 計(jì)算機(jī)工程與科學(xué). 2011(01)
[9]文本傾向性分析綜述[J]. 厲小軍,戴霖,施寒瀟,黃琦. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2011(07)
[10]基于Web的實(shí)驗(yàn)室互聯(lián)網(wǎng)輿情分析處理系統(tǒng)的研究與實(shí)現(xiàn)[J]. 許峰. 科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì). 2011(01)
碩士論文
[1]基于KNN算法的中文Web文本分類(lèi)技術(shù)研究[D]. 劉輝.遼寧工程技術(shù)大學(xué) 2010
[2]樸素貝葉斯分類(lèi)器的研究與應(yīng)用[D]. 王國(guó)才.重慶交通大學(xué) 2010
[3]校園BBS輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李婷.華中科技大學(xué) 2009
[4]互聯(lián)網(wǎng)輿情監(jiān)測(cè)分析系統(tǒng)實(shí)現(xiàn)[D]. 高洪杰.復(fù)旦大學(xué) 2009
[5]基于用戶(hù)瀏覽行為的網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)模型研究[D]. 羅亞平.北京郵電大學(xué) 2008
本文編號(hào):3292366
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3292366.html
最近更新
教材專(zhuān)著