云環(huán)境下的輿情監(jiān)測(cè)關(guān)鍵技術(shù)研究
本文選題:輿情監(jiān)測(cè) + 分布式爬蟲 ; 參考:《西南科技大學(xué)》2017年碩士論文
【摘要】:為滿足高校、醫(yī)院等特殊行業(yè)領(lǐng)域單位的網(wǎng)絡(luò)輿情需求,解決網(wǎng)絡(luò)輿情工作中針對(duì)性不足、成本高、實(shí)時(shí)性低的問題,本文設(shè)計(jì)實(shí)現(xiàn)一套針對(duì)特殊行業(yè)領(lǐng)域的云環(huán)境下的輿情監(jiān)測(cè)系統(tǒng)。主要工作包括:通過分析監(jiān)測(cè)源的信息排列特征,利用分布式網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)了輿情信息的快速采集系統(tǒng),能夠快速的爬取指定監(jiān)測(cè)源的相關(guān)頁面,能在5分鐘的延時(shí)范圍內(nèi)采集到特定的網(wǎng)頁信息,提高了數(shù)據(jù)的采集速率。利用基于HTML模版的文本抽取方法,實(shí)現(xiàn)頁面文本數(shù)據(jù)的精確快速抽取。利用全文檢索技術(shù)構(gòu)建了全文檢索引擎服務(wù),并在此基礎(chǔ)上實(shí)現(xiàn)了10分鐘內(nèi)發(fā)現(xiàn)輿情,平均準(zhǔn)確率達(dá)到95%以上,平均召回率到70%以上的輿情發(fā)現(xiàn)效果。根據(jù)用戶的實(shí)際需求,設(shè)計(jì)實(shí)現(xiàn)了云環(huán)境下的輿情監(jiān)測(cè)系統(tǒng),提供了輿情監(jiān)測(cè)與管理功能。本文集成數(shù)據(jù)采集系統(tǒng)、輿情發(fā)現(xiàn)系統(tǒng)、輿情監(jiān)測(cè)管理系統(tǒng)三個(gè)子系統(tǒng)形成云環(huán)境下的網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng),為高校、醫(yī)院等非政府機(jī)構(gòu)提供云環(huán)境下的在線輿情監(jiān)測(cè)服務(wù),實(shí)時(shí)性強(qiáng)。
[Abstract]:In order to meet the demand of network public opinion in universities, hospitals and other special industry units, solve the problems of lack of pertinence, high cost and low real-time performance in the work of network public opinion. In this paper, we design and implement a monitoring system of public opinion in cloud environment. The main work includes: by analyzing the information arrangement characteristics of the monitoring source and using distributed web crawler technology to realize the rapid collection system of public opinion information can quickly crawl the relevant pages of the designated monitoring source. It can collect the specific web page information in 5 minutes delay range, and improve the data acquisition rate. The accurate and fast extraction of page text data is realized by using HTML template based text extraction method. The full-text search engine service is constructed by using full-text retrieval technology, and the public opinion discovery effect is realized within 10 minutes. The average accuracy is more than 95%, and the average recall rate is more than 70%. According to the actual needs of users, the monitoring system of public opinion under cloud environment is designed and implemented, and the function of monitoring and managing public opinion is provided. This paper integrates the three subsystems of data acquisition system, public opinion discovery system and public opinion monitoring management system to form a network public opinion monitoring system in cloud environment, which provides online public opinion monitoring services for universities, hospitals and other non-governmental organizations in the cloud environment. Real-time ability.
【學(xué)位授予單位】:西南科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李少兵;《二十五史多媒體全文檢索閱讀系統(tǒng)》評(píng)價(jià)[J];中國史研究動(dòng)態(tài);2000年11期
2 肖詩斌;互聯(lián)網(wǎng)需要全文檢索[J];中國計(jì)算機(jī)用戶;2000年36期
3 傅軍;;報(bào)紙數(shù)字化與全文檢索方法研究[J];鐵路計(jì)算機(jī)應(yīng)用;2012年06期
4 張?jiān)?鄧聲菊;沈德鈺;安蕾;;案說高效全文檢索的途徑與技巧[J];中國發(fā)明與專利;2012年09期
5 滌非;美國化學(xué)學(xué)會(huì)18種雜志實(shí)現(xiàn)全文檢索[J];計(jì)算機(jī)與圖書館;1983年04期
6 楊則正;借助于Zylmage Web Server的全文檢索[J];管理科學(xué)文摘;1998年08期
7 ;文海撈針——全文檢索在北京日?qǐng)?bào)社的應(yīng)用[J];每周電腦報(bào);1999年22期
8 劉凌云,章銀良,郭秀麗;多媒體全文檢索光盤的系統(tǒng)組成與檢索原理[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2000年01期
9 ;全文檢索入佳境[J];微電腦世界;2000年37期
10 曉月;;全文檢索原理及實(shí)現(xiàn)[J];程序員;2006年12期
相關(guān)會(huì)議論文 前8條
1 曾福萍;周定康;;基于索引服務(wù)器實(shí)現(xiàn)全文檢索[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
2 史建斌;;軍控核查數(shù)據(jù)庫光盤全文檢索功能的原理及實(shí)現(xiàn)[A];中國工程物理研究院科技年報(bào)(2005)[C];2005年
3 范志新;王寧;陶曉鵬;施伯樂;;開放式圖書館漢語檢索結(jié)構(gòu)[A];數(shù)據(jù)庫研究進(jìn)展97——第十四屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(下)[C];1997年
4 朱虹;吳林;;DM4全文檢索機(jī)制的設(shè)計(jì)[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
5 朱虹;黃歡;;DM4全文檢索機(jī)制的改進(jìn)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
6 張誼巖;張霞;;OpenBASE中BLOB型文本數(shù)據(jù)全文檢索的設(shè)計(jì)與實(shí)現(xiàn)[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1999年
7 劉亞軍;劉延軍;胡陽;;報(bào)刊圖書數(shù)字資源公共服務(wù)平臺(tái)項(xiàng)目規(guī)劃設(shè)計(jì)[A];中國新聞技術(shù)工作者聯(lián)合會(huì)2013年學(xué)術(shù)年會(huì)、五屆五次理事會(huì)暨第六屆“王選新聞科學(xué)技術(shù)獎(jiǎng)”和優(yōu)秀論文獎(jiǎng)?lì)C獎(jiǎng)大會(huì)論文集(報(bào)業(yè)篇)[C];2013年
8 王富強(qiáng);馬德濤;張立朝;王建明;;地方志數(shù)據(jù)庫全文信息檢索研究[A];中國地理信息系統(tǒng)協(xié)會(huì)第四次會(huì)員代表大會(huì)暨第十一屆年會(huì)論文集[C];2007年
相關(guān)重要報(bào)紙文章 前10條
1 馮貝;“工”于全文檢索的數(shù)據(jù)庫系統(tǒng)[N];科技日?qǐng)?bào);2001年
2 寧夏數(shù)據(jù)通信局 劉君;SQL Server 2000中全文檢索的使用[N];計(jì)算機(jī)世界;2002年
3 郭瑩;全文檢索市場(chǎng)空間大[N];中國計(jì)算機(jī)報(bào);2006年
4 陳玉榮;更多、更快、更新的檢索系統(tǒng)[N];中國企業(yè)報(bào);2000年
5 子華;從全文檢索到信息整合[N];計(jì)算機(jī)世界;2003年
6 寧夏 劉君;SQL Server中全文檢索的使用[N];電腦報(bào);2001年
7 《金周刊》記者 康e,
本文編號(hào):1992426
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1992426.html