基于爬蟲(chóng)技術(shù)的煙草行業(yè)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-07-21 23:55
煙草行業(yè)在中國(guó)是一種備受爭(zhēng)議的專(zhuān)賣(mài)專(zhuān)營(yíng)特殊行業(yè),行業(yè)的各種行為極易引發(fā)輿情討論。煙草行業(yè)在發(fā)展過(guò)程中一直很重視對(duì)網(wǎng)絡(luò)輿情的監(jiān)控,但是行業(yè)內(nèi)部對(duì)網(wǎng)絡(luò)輿情的監(jiān)測(cè)大部分還處于人工模式。本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)煙草行業(yè)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在采集、處理海量數(shù)據(jù)方面的優(yōu)勢(shì),以實(shí)現(xiàn)對(duì)涉煙網(wǎng)絡(luò)輿情全方位的抓取,并提供給用戶(hù)可視化的輿情信息查詢(xún)、主題追蹤、統(tǒng)計(jì)分析等監(jiān)控服務(wù)。本文首先對(duì)網(wǎng)絡(luò)輿情監(jiān)控研究現(xiàn)狀,網(wǎng)絡(luò)爬蟲(chóng)、自然語(yǔ)言處理、機(jī)器學(xué)習(xí)技術(shù)進(jìn)行考察分析調(diào)研。其次,本文對(duì)煙草行業(yè)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的采集對(duì)象、需求進(jìn)行分析,并根據(jù)需求及業(yè)務(wù)流程,進(jìn)行了系統(tǒng)總體架構(gòu)設(shè)計(jì)、數(shù)據(jù)庫(kù)設(shè)計(jì)、子系統(tǒng)設(shè)計(jì)。本系統(tǒng)主要分為輿情采集、輿情應(yīng)用、系統(tǒng)管理三個(gè)子系統(tǒng)。在系統(tǒng)實(shí)現(xiàn)部分,本文按照各子系統(tǒng)的實(shí)現(xiàn)進(jìn)行說(shuō)明。包括選用基于Python語(yǔ)言的Scrapy爬蟲(chóng)框架,自定義策略應(yīng)對(duì)網(wǎng)站的反爬措施,運(yùn)用Selenium解決了動(dòng)態(tài)網(wǎng)頁(yè)數(shù)據(jù)的抓取問(wèn)題;通過(guò)正則表達(dá)式、XPath選擇器,配合Pandas、Numpy庫(kù)進(jìn)行數(shù)據(jù)清洗提取篩選;基于Jieba的中文分詞構(gòu)建涉煙輿情詞典和詞性庫(kù),自定義涉煙輿情特色關(guān)鍵詞的提取規(guī)則;通過(guò)W...
【文章來(lái)源】:鄭州大學(xué)河南省 211工程院校
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
通用網(wǎng)絡(luò)爬蟲(chóng)工作流程圖
10圖 2.2 聚焦爬蟲(chóng)工作流程圖2.2 Python 語(yǔ)言Python 語(yǔ)言是一種開(kāi)源的、面向?qū)ο蟮慕忉屝缘恼Z(yǔ)言,語(yǔ)法簡(jiǎn)便易懂、條理邏輯清晰、代碼靈活易用、具有很高的可擴(kuò)展性,可以實(shí)現(xiàn)很多功能。Python也被稱(chēng)為膠水語(yǔ)言,具有豐富和強(qiáng)大官方及第三方庫(kù)、大量的 Web 設(shè)計(jì)框架,能快速生成程序的原型,能夠把用其他語(yǔ)言尤其是 C、C++等底層語(yǔ)言制作的各種模塊輕松的聯(lián)結(jié)在一起,利用他們已有的庫(kù)來(lái)做很多擴(kuò)展,使開(kāi)發(fā)者的注意點(diǎn)可以集中在自己要做的事情上,提高程序運(yùn)行效率。Python 語(yǔ)言對(duì)其他語(yǔ)言有很好的擴(kuò)展性,是一款簡(jiǎn)單易用的工具性語(yǔ)言[14][14]。網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)典型的多任務(wù)處理場(chǎng)景,多線程或進(jìn)程會(huì)并發(fā)的爬行更提高程序效率,提升整個(gè)系統(tǒng)下載和分析能力。Python 在網(wǎng)絡(luò)爬蟲(chóng)方面的優(yōu)勢(shì)是:它具有多種爬蟲(chóng)框架,成熟穩(wěn)定的多線程爬蟲(chóng)進(jìn)程模型,可以簡(jiǎn)單方便高效的下載網(wǎng)頁(yè)。對(duì)于網(wǎng)頁(yè)的抓取,Python 和 C#
圖 2.3 Scrapy 架構(gòu)Scrapy 的數(shù)據(jù)流過(guò)程為[17][17]:(1)首先引擎打開(kāi)一個(gè)網(wǎng)站,找到處理該網(wǎng)站的爬蟲(chóng),并向該爬蟲(chóng)請(qǐng)求始的 URL 地址,獲取地址后請(qǐng)求調(diào)度器進(jìn)行調(diào)度;(2)引擎向調(diào)度器請(qǐng)求接下來(lái)需要爬取的 URL 地址,引擎獲取后將該 U通過(guò)下載器中間件轉(zhuǎn)給下載器進(jìn)行下載;(3)頁(yè)面下載完畢后,下載器將生成的頁(yè)面應(yīng)答通過(guò)下載器中間件發(fā)送引擎;(4)引擎將接收到的應(yīng)答,通過(guò)爬蟲(chóng)中間件發(fā)送給爬蟲(chóng)處理;(5)爬蟲(chóng)處理完 Response,將提取到的項(xiàng)目及新的 Request 給引擎;(6)引擎將爬蟲(chóng)返回的項(xiàng)目給項(xiàng)目管道,將新的 Request 給調(diào)度器;(7)重復(fù)以上步驟,直到調(diào)度器中沒(méi)有 Request,引擎關(guān)閉網(wǎng)站,爬取結(jié)2.4 動(dòng)態(tài)頁(yè)面爬取
本文編號(hào):3296020
【文章來(lái)源】:鄭州大學(xué)河南省 211工程院校
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
通用網(wǎng)絡(luò)爬蟲(chóng)工作流程圖
10圖 2.2 聚焦爬蟲(chóng)工作流程圖2.2 Python 語(yǔ)言Python 語(yǔ)言是一種開(kāi)源的、面向?qū)ο蟮慕忉屝缘恼Z(yǔ)言,語(yǔ)法簡(jiǎn)便易懂、條理邏輯清晰、代碼靈活易用、具有很高的可擴(kuò)展性,可以實(shí)現(xiàn)很多功能。Python也被稱(chēng)為膠水語(yǔ)言,具有豐富和強(qiáng)大官方及第三方庫(kù)、大量的 Web 設(shè)計(jì)框架,能快速生成程序的原型,能夠把用其他語(yǔ)言尤其是 C、C++等底層語(yǔ)言制作的各種模塊輕松的聯(lián)結(jié)在一起,利用他們已有的庫(kù)來(lái)做很多擴(kuò)展,使開(kāi)發(fā)者的注意點(diǎn)可以集中在自己要做的事情上,提高程序運(yùn)行效率。Python 語(yǔ)言對(duì)其他語(yǔ)言有很好的擴(kuò)展性,是一款簡(jiǎn)單易用的工具性語(yǔ)言[14][14]。網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)典型的多任務(wù)處理場(chǎng)景,多線程或進(jìn)程會(huì)并發(fā)的爬行更提高程序效率,提升整個(gè)系統(tǒng)下載和分析能力。Python 在網(wǎng)絡(luò)爬蟲(chóng)方面的優(yōu)勢(shì)是:它具有多種爬蟲(chóng)框架,成熟穩(wěn)定的多線程爬蟲(chóng)進(jìn)程模型,可以簡(jiǎn)單方便高效的下載網(wǎng)頁(yè)。對(duì)于網(wǎng)頁(yè)的抓取,Python 和 C#
圖 2.3 Scrapy 架構(gòu)Scrapy 的數(shù)據(jù)流過(guò)程為[17][17]:(1)首先引擎打開(kāi)一個(gè)網(wǎng)站,找到處理該網(wǎng)站的爬蟲(chóng),并向該爬蟲(chóng)請(qǐng)求始的 URL 地址,獲取地址后請(qǐng)求調(diào)度器進(jìn)行調(diào)度;(2)引擎向調(diào)度器請(qǐng)求接下來(lái)需要爬取的 URL 地址,引擎獲取后將該 U通過(guò)下載器中間件轉(zhuǎn)給下載器進(jìn)行下載;(3)頁(yè)面下載完畢后,下載器將生成的頁(yè)面應(yīng)答通過(guò)下載器中間件發(fā)送引擎;(4)引擎將接收到的應(yīng)答,通過(guò)爬蟲(chóng)中間件發(fā)送給爬蟲(chóng)處理;(5)爬蟲(chóng)處理完 Response,將提取到的項(xiàng)目及新的 Request 給引擎;(6)引擎將爬蟲(chóng)返回的項(xiàng)目給項(xiàng)目管道,將新的 Request 給調(diào)度器;(7)重復(fù)以上步驟,直到調(diào)度器中沒(méi)有 Request,引擎關(guān)閉網(wǎng)站,爬取結(jié)2.4 動(dòng)態(tài)頁(yè)面爬取
本文編號(hào):3296020
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3296020.html
最近更新
教材專(zhuān)著