專業(yè)鎮(zhèn)信息爬取子系統(tǒng)的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:專業(yè)鎮(zhèn)信息爬取子系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著廣東省經(jīng)濟的飛速發(fā)展,一些在省內(nèi)占有優(yōu)越的地理位置、文化環(huán)境和信息條件的市鎮(zhèn)出現(xiàn)了許多有一定規(guī)模的中小微企業(yè)。這些鎮(zhèn)內(nèi)的企業(yè)常常聯(lián)合起來,針對某一產(chǎn)業(yè),各自分工合作,從而謀得發(fā)展。經(jīng)過多年的優(yōu)勝劣汰,省內(nèi)的許多市鎮(zhèn)都形成了自己的特色產(chǎn)業(yè),特色品牌。然而,這些鎮(zhèn)與鎮(zhèn)之間的聯(lián)系比較少,缺乏信息溝通的渠道。而且,鎮(zhèn)內(nèi)的企業(yè)都缺乏一個能夠進行信息共享、展現(xiàn)自我的信息服務(wù)平臺。在信息網(wǎng)絡(luò)蓬勃發(fā)展的現(xiàn)在,這些專業(yè)鎮(zhèn)明顯跟不上時代的腳步。因此,急需一個平臺來整合產(chǎn)業(yè)信息資源,提供信息交互的渠道,通過信息網(wǎng)絡(luò)創(chuàng)新技術(shù)保證信息的完整以及安全,為企業(yè)的發(fā)展提供一個有效的、可行的策略。而廣東省專業(yè)鎮(zhèn)信息服務(wù)平臺迎合了這些需求。本論文來源于“廣東省專業(yè)鎮(zhèn)信息服務(wù)平臺”項目。在專業(yè)鎮(zhèn)信息平臺中,我們需要對專業(yè)鎮(zhèn)平臺三大數(shù)據(jù)庫的數(shù)據(jù)進行采集工作,為了高效準確地獲取數(shù)據(jù)源,本文設(shè)計了一個專業(yè)鎮(zhèn)信息爬取子系統(tǒng)來實現(xiàn)從互聯(lián)網(wǎng)上抓取數(shù)據(jù),解析數(shù)據(jù)并將數(shù)據(jù)導入平臺系統(tǒng)中。論文主要完成了以下工作:對信息平臺發(fā)展動態(tài)以及爬蟲研究現(xiàn)狀做了簡單的介紹;闡述平臺系統(tǒng)的總體設(shè)計思路與組織架構(gòu),平臺的前端頁面技術(shù)以及后端的企業(yè)內(nèi)容管理系統(tǒng)。通過分析平臺的處理流程和網(wǎng)絡(luò)結(jié)構(gòu),描述平臺的實現(xiàn)過程。設(shè)計并實現(xiàn)爬取子系統(tǒng),爬取各類網(wǎng)站的海量數(shù)據(jù),根據(jù)信息平臺數(shù)據(jù)庫需求的數(shù)據(jù)類型與格式,對獲取的數(shù)據(jù)源進行結(jié)構(gòu)化處理。通過網(wǎng)頁內(nèi)容主題相關(guān)策略對信息的有效性進行了驗證。最后將爬取的數(shù)據(jù)源存儲在數(shù)據(jù)庫管理系統(tǒng)中,爬取結(jié)束后,把數(shù)據(jù)庫文件進行分類處理,并將其批量導入專業(yè)鎮(zhèn)信息平臺的后臺數(shù)據(jù)庫。實現(xiàn)了信息平臺數(shù)據(jù)和采集數(shù)據(jù)的融合。
【關(guān)鍵詞】:信息服務(wù)平臺 網(wǎng)絡(luò)爬蟲 數(shù)據(jù)源
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.52;TP393.09
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-16
- 1.1 課題研究的背景及意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 國內(nèi)外專業(yè)鎮(zhèn)信息化研究現(xiàn)狀12-13
- 1.2.2 國內(nèi)外網(wǎng)絡(luò)爬蟲研究現(xiàn)狀13-14
- 1.3 論文的研究內(nèi)容及論文結(jié)構(gòu)14-16
- 第二章 相關(guān)技術(shù)介紹16-24
- 2.1 爬蟲技術(shù)的簡介16-17
- 2.2 基于Scrapy的網(wǎng)頁抓取技術(shù)17-18
- 2.2.1 python爬蟲框架Scrapy17-18
- 2.2.2 Xpath介紹18
- 2.3 基于BeautifulSoup的網(wǎng)頁解析技術(shù)18-19
- 2.3.1 Urllib庫18
- 2.3.2 BeautifulSoup解析器18-19
- 2.4 專業(yè)鎮(zhèn)信息服務(wù)平臺的開發(fā)技術(shù)19-23
- 2.4.1 J2EE概念和結(jié)構(gòu)19-20
- 2.4.2 J2EE主要技術(shù)20-21
- 2.4.3 Web應(yīng)用框架21
- 2.4.4 Web Services21-22
- 2.4.5 企業(yè)內(nèi)容管理系統(tǒng)22-23
- 2.5 本章小結(jié)23-24
- 第三章 平臺的總體設(shè)計24-31
- 3.1 系統(tǒng)的需求分析24-26
- 3.1.1 前端系統(tǒng)功能性需求25
- 3.1.2 后臺系統(tǒng)的功能性需求25
- 3.1.3 平臺系統(tǒng)的用例25-26
- 3.2 系統(tǒng)的流程處理26-28
- 3.3 系統(tǒng)的軟件結(jié)構(gòu)28-30
- 3.4 系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)30
- 3.5 本章小結(jié)30-31
- 第四章 爬取子系統(tǒng)的設(shè)計31-47
- 4.1 子系統(tǒng)的爬取目標31-32
- 4.2 子系統(tǒng)的功能結(jié)構(gòu)32-33
- 4.3 子系統(tǒng)的軟件結(jié)構(gòu)33-37
- 4.4 子系統(tǒng)的流程處理37-38
- 4.5 子系統(tǒng)的抓取策略38-40
- 4.5.1 深度優(yōu)先遍歷策略38-39
- 4.5.2 網(wǎng)頁內(nèi)容主題相關(guān)策略39-40
- 4.6 子系統(tǒng)的接口設(shè)計40-42
- 4.7 數(shù)據(jù)庫的設(shè)計42-46
- 4.7.1 創(chuàng)新資源庫42-44
- 4.7.2 市場信息庫44-46
- 4.7.3 企業(yè)技術(shù)需求庫46
- 4.8 本章小結(jié)46-47
- 第五章 子系統(tǒng)的詳細設(shè)計及關(guān)鍵技術(shù)的應(yīng)用47-64
- 5.1 抓取信息模塊的設(shè)計47-48
- 5.2 信息存儲模塊的設(shè)計48-51
- 5.3 內(nèi)容處理模塊的設(shè)計51-53
- 5.4 Web信息抓取框架Scrapy的應(yīng)用53-60
- 5.4.1 Spider的具體應(yīng)用53-55
- 5.4.2 CSS選擇器和Xpath的具體應(yīng)用55-58
- 5.4.3 模擬登錄抓取網(wǎng)頁內(nèi)容58-60
- 5.5 HTML/XML解析器BeautifulSoup的應(yīng)用60-63
- 5.5.1 靜態(tài)網(wǎng)頁內(nèi)容提取60-62
- 5.5.2 抓取動態(tài)網(wǎng)頁62-63
- 5.6 本章小結(jié)63-64
- 第六章 系統(tǒng)測試64-72
- 6.1 系統(tǒng)測試概述64-65
- 6.2 網(wǎng)絡(luò)爬蟲子系統(tǒng)的功能測試65-70
- 6.3 網(wǎng)絡(luò)爬蟲子系統(tǒng)的性能測試70
- 6.4 本章小結(jié)70-72
- 總結(jié)與展望72-73
- 參考文獻73-75
- 攻讀碩士學位期間取得的研究成果75-76
- 致謝76-77
- 附件77
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊勇;;廣東省專業(yè)鎮(zhèn)公共創(chuàng)新服務(wù)平臺建設(shè)研究[J];廣東科技;2011年16期
2 曾亮;齊歡;王小平;陳迎春;;基于J2EE核心模式的組合Web框架研究[J];華中科技大學學報(自然科學版);2007年06期
3 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機科學;2009年08期
4 范玉順,吳澄;工作流管理技術(shù)研究與產(chǎn)品現(xiàn)狀及發(fā)展趨勢[J];計算機集成制造系統(tǒng)-CIMS;2000年01期
5 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機應(yīng)用;2005年04期
6 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
7 歐陽俊;張岳恒;;廣東專業(yè)鎮(zhèn)發(fā)展的現(xiàn)狀及與國內(nèi)外比較研究[J];科技管理研究;2009年08期
8 古秉權(quán);;數(shù)據(jù)庫系統(tǒng)分析與設(shè)計[J];南方金屬;2009年01期
9 胡敏;;基于Freemarker的企業(yè)網(wǎng)站內(nèi)容管理平臺研究[J];信息通信;2011年02期
10 王法能;周曉娟;;數(shù)據(jù)庫安全的實現(xiàn)技術(shù)[J];計算機與信息技術(shù);2005年08期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前6條
1 周星海;基于SOAP的Web服務(wù)訪問控制技術(shù)的研究[D];大連海事大學;2006年
2 劉潔清;網(wǎng)站聚焦爬蟲研究[D];江西財經(jīng)大學;2006年
3 蔣科;基于領(lǐng)域概念定制的主題爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學;2007年
4 何庭宏;廣東專業(yè)鎮(zhèn)發(fā)展現(xiàn)狀分析與升級對策[D];北京交通大學;2008年
5 郭智杰;中國高科技產(chǎn)業(yè)集群問題研究[D];遼寧大學;2012年
6 劉惠;基于MVC的體育舞蹈視頻教學系統(tǒng)的設(shè)計與實現(xiàn)[D];北京工業(yè)大學;2014年
本文關(guān)鍵詞:專業(yè)鎮(zhèn)信息爬取子系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:384069
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/384069.html