天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

海量網(wǎng)絡(luò)媒體信息采集及處理平臺(tái)設(shè)計(jì)實(shí)現(xiàn)

發(fā)布時(shí)間:2021-02-08 03:18
  互聯(lián)網(wǎng)的蓬勃發(fā)展,使得網(wǎng)絡(luò)媒體中蘊(yùn)含著海量的信息。社交網(wǎng)絡(luò)作為一種特殊的網(wǎng)絡(luò),其中充斥著大量的人類活動(dòng)的數(shù)據(jù)信息,具有很高的研究?jī)r(jià)值。但是,網(wǎng)絡(luò)媒體信息通常具有分散的特點(diǎn),導(dǎo)致網(wǎng)絡(luò)媒體中的信息難以被直接利用。因此,對(duì)網(wǎng)絡(luò)媒體信息進(jìn)行數(shù)據(jù)采集,是進(jìn)行網(wǎng)絡(luò)媒體數(shù)據(jù)分析及數(shù)據(jù)挖掘的先決條件。海量網(wǎng)絡(luò)媒體信息采集是指通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或數(shù)據(jù)API接口提取等技術(shù)手段,達(dá)到獲取網(wǎng)絡(luò)中感興趣的數(shù)據(jù)的目的。不同于一般的網(wǎng)絡(luò)媒體信息采集,對(duì)社交網(wǎng)絡(luò)進(jìn)行信息采集首先需要對(duì)社交網(wǎng)絡(luò)賬號(hào)進(jìn)行登錄,因此確保社交賬號(hào)保持正常的狀態(tài)是社交網(wǎng)絡(luò)數(shù)據(jù)采集的前提,F(xiàn)有的針對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)采集的研究中很少有關(guān)于賬號(hào)模擬的功能設(shè)計(jì),無(wú)法確保賬號(hào)保持正常的狀態(tài),因此難以保證網(wǎng)絡(luò)媒體數(shù)據(jù)的穩(wěn)定獲取。另一反面,現(xiàn)有的網(wǎng)絡(luò)媒體數(shù)據(jù)采集大多基于單節(jié)點(diǎn)的設(shè)計(jì)實(shí)現(xiàn),難以滿足海量的數(shù)據(jù)需求。針對(duì)上述問(wèn)題,本文以Twitter為數(shù)據(jù)采集對(duì)象,設(shè)計(jì)實(shí)現(xiàn)了海量網(wǎng)絡(luò)媒體信息采集及處理平臺(tái),該系統(tǒng)在模擬社交網(wǎng)絡(luò)賬號(hào)登錄的基礎(chǔ)上,實(shí)現(xiàn)了社交媒體網(wǎng)絡(luò)信息的穩(wěn)定采集,主要工作概括為如下兩方面:(1)針對(duì)社交網(wǎng)絡(luò)賬號(hào)模擬問(wèn)題,在提出基于Twitter平臺(tái)的社交網(wǎng)絡(luò)賬... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:75 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

海量網(wǎng)絡(luò)媒體信息采集及處理平臺(tái)設(shè)計(jì)實(shí)現(xiàn)


推特API問(wèn)題實(shí)例針對(duì)上述問(wèn)題,本文系統(tǒng)采用通過(guò)模擬瀏覽器的方式獲取Twitter數(shù)據(jù),及對(duì)

主界面,賬號(hào),社交,頁(yè)面


電子科技大學(xué)碩士學(xué)位論文14務(wù)分配到相應(yīng)的任務(wù)隊(duì)列中,然后各個(gè)執(zhí)行節(jié)點(diǎn)中的Workers分別取任務(wù)執(zhí)行。在本文設(shè)計(jì)實(shí)現(xiàn)的系統(tǒng)中,服務(wù)器端主要是對(duì)社交網(wǎng)絡(luò)賬號(hào)模擬子系統(tǒng)與網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)的后端實(shí)現(xiàn)。(1)賬號(hào)模擬社交網(wǎng)絡(luò)賬號(hào)模擬是社交網(wǎng)絡(luò)數(shù)據(jù)采集的前提,只有擁有大量狀態(tài)正常的社交賬號(hào)才能訪問(wèn)社交網(wǎng)站信息頁(yè)面,解析目標(biāo)頁(yè)面元素。如果服務(wù)器端接收到了賬號(hào)模擬的任務(wù),則系統(tǒng)自動(dòng)調(diào)用賬號(hào)模擬的程序。具體內(nèi)容及流程詳見(jiàn)第三章。(2)信息采集信息采集的后端實(shí)現(xiàn)是在接收到客戶端發(fā)送來(lái)的采集任務(wù)后,由系統(tǒng)任務(wù)通過(guò)分配策略自動(dòng)將采集任務(wù)分發(fā)到各個(gè)采集隊(duì)列中。其中,每一臺(tái)采集計(jì)算機(jī)節(jié)點(diǎn)中監(jiān)聽(tīng)一個(gè)任務(wù)隊(duì)列,各個(gè)采集節(jié)點(diǎn)自動(dòng)從對(duì)應(yīng)的任務(wù)隊(duì)列中取任務(wù)執(zhí)行。數(shù)據(jù)采集的實(shí)現(xiàn)將于第四章進(jìn)行詳細(xì)說(shuō)明。2.3.2客戶端為了便于用戶對(duì)于賬號(hào)模擬及數(shù)據(jù)采集的控制,同時(shí)實(shí)時(shí)了解任務(wù)執(zhí)行情況,本文系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)了整體系統(tǒng)的客戶端?蛻舳说墓δ茉O(shè)計(jì)覆蓋了社交網(wǎng)絡(luò)賬號(hào)模擬子系統(tǒng)及網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)的任務(wù)啟停控制及執(zhí)行情況的顯示等?蛻舳酥械捻(yè)面使用了Bootstrap[36,37]框架進(jìn)行構(gòu)建,Bootstrap是目前比較常見(jiàn)的前端框架之一,具有簡(jiǎn)潔靈活的特點(diǎn),應(yīng)用此框架能夠讓前端頁(yè)面開(kāi)發(fā)更加快捷。圖2-7本文系統(tǒng)主界面本文系統(tǒng)中,客戶端主要包括主頁(yè)面、數(shù)據(jù)采集功能頁(yè)面及賬號(hào)模擬功能頁(yè)面三個(gè)部分。其中,系統(tǒng)的主頁(yè)面如圖2-7所示,為系統(tǒng)啟動(dòng)后用戶進(jìn)行訪問(wèn)的首頁(yè)。該頁(yè)面主要用于實(shí)現(xiàn)用戶對(duì)于“賬號(hào)模擬”及“數(shù)據(jù)采集”具體功能的選擇,用戶可通過(guò)點(diǎn)擊相應(yīng)的圖標(biāo)進(jìn)入具體的子系統(tǒng)控制頁(yè)面。數(shù)據(jù)采集部分與第四章“網(wǎng)絡(luò)媒體信息爬取子系統(tǒng)”相對(duì)應(yīng),系統(tǒng)用戶通過(guò)輸

示例,賬號(hào),管理者


榭齷虺魷值母怕氏災(zāi)?嶸?!叭嘶?櫓ぁ蔽?詰鍬脊?討校?緱嫻?黿換ゴ?口,必須按照頁(yè)面指定的要求操作才能夠訪問(wèn)Twitter系統(tǒng)頁(yè)面。不難發(fā)現(xiàn),如果一臺(tái)設(shè)備短時(shí)間內(nèi)登錄大量Twitter賬號(hào),會(huì)被檢測(cè)為疑似機(jī)器人賬號(hào)。3.2.3行為異常Twitter中,用戶可以向推特管理者舉報(bào)其它賬號(hào)為異常賬號(hào),如圖3-1所示。推特管理者在審核舉報(bào)信息后,會(huì)對(duì)違反推特規(guī)則的賬號(hào)采取一系列的措施以限制其行為。推特規(guī)則禁止發(fā)布包括暴力、恐怖、性等內(nèi)容的推文,一些研究通過(guò)對(duì)推文文本進(jìn)行特征提取并運(yùn)用機(jī)器學(xué)習(xí)等方法進(jìn)行異常賬號(hào)檢測(cè)。圖3-1Twitter異常舉報(bào)示例

【參考文獻(xiàn)】:
期刊論文
[1]基于微博API的分布式抓取技術(shù)[J]. 陳舜華,王曉彤,郝志峰,蔡瑞初,肖曉軍,盧宇.  電信科學(xué). 2013(08)
[2]基于Web的網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 徐遠(yuǎn)超,劉江華,劉麗珍,關(guān)永.  微計(jì)算機(jī)信息. 2007(21)
[3]聚焦爬蟲(chóng)技術(shù)研究綜述[J]. 周立柱,林玲.  計(jì)算機(jī)應(yīng)用. 2005(09)
[4]基于瓶頸分析的優(yōu)先權(quán)調(diào)度算法研究[J]. 李黎,成曄,袁守華.  計(jì)算機(jī)集成制造系統(tǒng). 2005(02)
[5]基于并行組合模擬退火的全局優(yōu)化算法[J]. 孫小平,張雙虎.  西安理工大學(xué)學(xué)報(bào). 2004(04)

碩士論文
[1]社交機(jī)器人檢測(cè)技術(shù)研究及實(shí)現(xiàn)[D]. 王雅晗.北京郵電大學(xué) 2019
[2]基于行為分析的社交網(wǎng)絡(luò)異常賬號(hào)的檢測(cè)[D]. 劉琛.北京交通大學(xué) 2017
[3]基于網(wǎng)絡(luò)爬蟲(chóng)的網(wǎng)站信息采集技術(shù)研究[D]. 孫駿雄.大連海事大學(xué) 2014



本文編號(hào):3023286

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3023286.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bf66a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com