基于Web的企業(yè)競(jìng)爭(zhēng)情報(bào)收集技術(shù)研究
本文選題:競(jìng)爭(zhēng)情報(bào) + 主題爬蟲(chóng); 參考:《大連理工大學(xué)》2012年碩士論文
【摘要】:隨著信息技術(shù)的不斷發(fā)展,越來(lái)越多的資源通過(guò)互聯(lián)網(wǎng)呈現(xiàn)給用戶(hù),這給不少企業(yè)的情報(bào)收集帶來(lái)了新的機(jī)遇;同時(shí)也使企業(yè)面臨新的挑戰(zhàn),企業(yè)如何有效地從互聯(lián)網(wǎng)中的海量信息資源中獲取準(zhǔn)確可靠的信息一時(shí)間成為研究的熱點(diǎn)。通用搜索引擎可以解決一般用戶(hù)的檢索,但面對(duì)企業(yè)情報(bào)收集時(shí)在頁(yè)面的及時(shí)性和個(gè)性化方面就不能滿(mǎn)足用戶(hù)的需求。本文旨在利用開(kāi)源軟件的優(yōu)勢(shì),通過(guò)Web挖掘技術(shù)獲取互聯(lián)網(wǎng)中的信息情報(bào),進(jìn)而搭建和實(shí)現(xiàn)企業(yè)自動(dòng)化情報(bào)收集平臺(tái),方便用戶(hù)開(kāi)展情報(bào)工作;同時(shí)提高企業(yè)獲取情報(bào)的效率,提升企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力。 本文通過(guò)對(duì)企業(yè)競(jìng)爭(zhēng)情報(bào)獲取技術(shù)的研究分析,設(shè)計(jì)了一個(gè)企業(yè)自動(dòng)化競(jìng)爭(zhēng)情報(bào)收集系統(tǒng),該系統(tǒng)主要解決用戶(hù)在互聯(lián)網(wǎng)中收集信息所面臨的問(wèn)題;同時(shí)為管理者提供了決策支持。具體工作如下 (1)本文首先指出企業(yè)開(kāi)展競(jìng)爭(zhēng)情報(bào)工作在經(jīng)濟(jì)全球化下的現(xiàn)實(shí)意義,闡明企業(yè)構(gòu)建競(jìng)爭(zhēng)情報(bào)系統(tǒng)的必要性,并指出目前市場(chǎng)上主流競(jìng)爭(zhēng)情報(bào)軟件的不足之處。 (2)從系統(tǒng)開(kāi)發(fā)角度研究了Web信息收集中主題爬蟲(chóng)工作原理,爬蟲(chóng)種子的定制,Web文檔預(yù)處理,字符編碼,中文分詞,頁(yè)面格式化等一系列關(guān)鍵技術(shù)。 (3)深入研究了主題爬蟲(chóng)的體系結(jié)構(gòu),并根據(jù)第三方門(mén)戶(hù)網(wǎng)站的頁(yè)面特征對(duì)爬蟲(chóng)內(nèi)部結(jié)構(gòu)做了優(yōu)化設(shè)計(jì)。 (4)針對(duì)在高質(zhì)量數(shù)據(jù)源中獲取的Web文檔,利用一種改進(jìn)的TF-IDF方法提取領(lǐng)域主題詞,作為后期情報(bào)加工和分析的基礎(chǔ)。改進(jìn)的算法在主題詞提取準(zhǔn)確性方面有了較大提高。 (5)最后,根據(jù)本文研究的內(nèi)容,我們?cè)O(shè)計(jì)開(kāi)發(fā)了一個(gè)面向醫(yī)藥領(lǐng)域情報(bào)自動(dòng)收集系統(tǒng)。該系統(tǒng)可以定制競(jìng)爭(zhēng)對(duì)手網(wǎng)站頁(yè)面,定期的收集信息并將信息轉(zhuǎn)換為一定的格式呈現(xiàn)給情報(bào)工作人員。
[Abstract]:With the continuous development of information technology, more and more resources are presented to users through the Internet, which brings new opportunities for many enterprises to collect information, and also makes enterprises face new challenges. How to effectively obtain accurate and reliable information from the massive information resources in the Internet has become a hot research topic. General search engine can solve the retrieval of general users, but it can not meet the needs of users in the aspect of timeliness and individuation of pages in the face of enterprise intelligence gathering. The purpose of this paper is to make use of the advantage of open source software to obtain information in the Internet through Web mining technology, and then to build and realize the automatic information gathering platform of enterprises, which is convenient for users to carry out intelligence work, and at the same time to improve the efficiency of obtaining information by enterprises. Enhance the market competitiveness of enterprises. Based on the research and analysis of enterprise competitive intelligence acquisition technology, this paper designs an enterprise automated competitive intelligence gathering system, which mainly solves the problems that users face in collecting information in the Internet. At the same time, it provides decision support for managers. The specific work is as follows Firstly, this paper points out the practical significance of enterprises' competitive intelligence work under the economic globalization, expounds the necessity for enterprises to build competitive intelligence systems, and points out the shortcomings of the mainstream competitive intelligence software in the market at present. From the point of view of system development, this paper studies a series of key technologies, such as the working principle of topic crawler in Web information collection, the preprocessing of custom web document of crawler seed, character encoding, Chinese word segmentation, page formatting and so on. (3) the architecture of theme crawler is deeply studied, and the internal structure of crawler is optimized according to the page features of third-party portal. For Web documents obtained from high quality data sources, an improved TF-IDF method is used to extract the domain subject words as the basis of information processing and analysis. The improved algorithm has greatly improved the accuracy of the subject word extraction. Finally, according to the content of this paper, we design and develop an automatic information collection system for medicine field. The system can customize the competitors' website pages, collect information regularly and transform the information into a certain format for the information staff.
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:G351;F272
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙麗娜;周吉順;;基于WEB的高校網(wǎng)上選課系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2011年18期
2 米新英;;基于Web的通用商品報(bào)價(jià)系統(tǒng)的研究與實(shí)現(xiàn)[J];北華航天工業(yè)學(xué)院學(xué)報(bào);2011年03期
3 朱啟英;李明霞;穆玉明;張?jiān)疵?;基于WEB的考試系統(tǒng)在醫(yī)學(xué)遠(yuǎn)程教育中的應(yīng)用[J];中國(guó)高等醫(yī)學(xué)教育;2011年06期
4 段靜波;潘惠蘋(píng);;基于WEB的學(xué)院教務(wù)管理系統(tǒng)設(shè)計(jì)與應(yīng)用[J];電腦知識(shí)與技術(shù);2011年17期
5 范毅君;馬永威;;淺談門(mén)戶(hù)網(wǎng)站的設(shè)計(jì)與在油田中的應(yīng)用[J];中國(guó)石油和化工標(biāo)準(zhǔn)與質(zhì)量;2011年07期
6 潘生;;基于WEB的人力資源管理專(zhuān)業(yè)親驗(yàn)式教學(xué)資源庫(kù)系統(tǒng)設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2011年23期
7 杜婷;陶克斌;夏勤;;基于Web的無(wú)刷新即時(shí)通訊設(shè)計(jì)與實(shí)現(xiàn)[J];重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年04期
8 王玉華;;Unix平臺(tái)下的數(shù)據(jù)庫(kù)查詢(xún)開(kāi)發(fā)工具(Web-DTools)的設(shè)計(jì)與實(shí)現(xiàn)[J];信息與電腦(理論版);2011年06期
9 張愛(ài)軍;;電子商務(wù)技術(shù)的創(chuàng)新發(fā)展趨勢(shì)[J];電腦知識(shí)與技術(shù);2011年26期
10 鐘壽福;吳偉信;;中學(xué)研究性學(xué)習(xí)網(wǎng)絡(luò)支撐平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J];福建電腦;2011年07期
相關(guān)會(huì)議論文 前10條
1 石晶;龔震宇;裘杭萍;;基于Web挖掘的個(gè)性化服務(wù)技術(shù)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
2 李利波;劉明利;;一種改進(jìn)的無(wú)回溯反向Web服務(wù)動(dòng)態(tài)組合方法[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
3 游爭(zhēng)光;劉建勛;唐明董;;分布式Web服務(wù)測(cè)試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
4 殷華蓓;李通;唐常杰;張?zhí)鞈c;左志松;;從Web文件中挖掘個(gè)性化導(dǎo)航知識(shí)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
5 ;基于廣義對(duì)話(huà)的Web用戶(hù)的聚類(lèi)(英文)[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
6 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
7 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
8 胡建強(qiáng);周斌;尹剛;鄒鵬;;基于角色的Web服務(wù)訪(fǎng)問(wèn)控制技術(shù)研究[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
9 黃建波;丁揚(yáng);方芳;;基于代理服務(wù)器的Web加速的實(shí)現(xiàn)[A];2010通信理論與技術(shù)新發(fā)展——第十五屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2010年
10 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 趙曉濤;Web安全 服務(wù)為王[N];網(wǎng)絡(luò)世界;2008年
2 本報(bào)特約撰稿 張娟;用Web 2.0提升知識(shí)管理效率[N];計(jì)算機(jī)世界;2008年
3 厲民;金融風(fēng)暴沖擊Web2.0產(chǎn)業(yè)[N];人民郵電;2008年
4 電腦商報(bào)記者 周雪;Web安全市場(chǎng)須冷卻慎行[N];電腦商報(bào);2008年
5 郭川;Web2.0:新花樣層出不窮[N];人民郵電;2008年
6 本報(bào)記者 趙曉濤;Web安全:歷史的命題[N];網(wǎng)絡(luò)世界;2008年
7 本報(bào)記者 李飛虎;Web 2.0[N];中國(guó)計(jì)算機(jī)報(bào);2008年
8 彭敏;企業(yè)級(jí)Web2.0迎來(lái)應(yīng)用高潮[N];電腦商報(bào);2009年
9 商報(bào)記者 吳辰光;Web2.0凸顯空洞概念[N];北京商報(bào);2009年
10 本報(bào)記者 毛江華;安啟華聯(lián)手賽門(mén)鐵克 掘金Web安全[N];計(jì)算機(jī)世界;2009年
相關(guān)博士學(xué)位論文 前10條
1 張建武;面向Web應(yīng)用的安全評(píng)測(cè)技術(shù)研究[D];北京郵電大學(xué);2012年
2 朱俊武;基于本體的Web服務(wù)語(yǔ)義支撐技術(shù)研究[D];南京航空航天大學(xué);2008年
3 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
4 魏登萍;語(yǔ)義Web服務(wù)發(fā)現(xiàn)中匹配策略的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
5 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
6 楊卉;Web文本觀點(diǎn)挖掘及隱含情感傾向的研究[D];吉林大學(xué);2011年
7 馬建斌;中文Web信息作者同一認(rèn)定技術(shù)研究[D];河北農(nóng)業(yè)大學(xué);2010年
8 陳世展;服務(wù)網(wǎng)絡(luò):基于語(yǔ)義和社會(huì)化關(guān)系的Web服務(wù)計(jì)算基礎(chǔ)設(shè)施[D];天津大學(xué);2010年
9 胡佳;語(yǔ)義Web服務(wù)自動(dòng)組合及驗(yàn)證的研究[D];天津大學(xué);2010年
10 王輝;面向互聯(lián)網(wǎng)的Web服務(wù)基礎(chǔ)設(shè)施構(gòu)建和應(yīng)用[D];天津大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 唐黎;Deep Web頁(yè)面結(jié)構(gòu)分析與核心內(nèi)容提取研究[D];重慶大學(xué);2011年
2 吳新勇;基于需求群組的Web服務(wù)調(diào)度模型研究[D];上海交通大學(xué);2011年
3 徐衛(wèi);Web新聞熱點(diǎn)發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
4 姜本臣;基于嵌入式Web服務(wù)器應(yīng)用技術(shù)的研究[D];沈陽(yáng)工業(yè)大學(xué);2012年
5 溫梨梨;基于零拷貝的Web服務(wù)器技術(shù)研究[D];中國(guó)海洋大學(xué);2011年
6 焦燕廷;一種基于領(lǐng)域本體的語(yǔ)義Web服務(wù)匹配和組合方法[D];山東科技大學(xué);2011年
7 黃亮;Web漏洞掃描系統(tǒng)中的智能爬蟲(chóng)技術(shù)研究[D];杭州電子科技大學(xué);2012年
8 趙春娟;Web服務(wù)組合方法的研究與實(shí)現(xiàn)[D];天津理工大學(xué);2011年
9 任強(qiáng);基于謂詞抽象與精化技術(shù)的Web服務(wù)驗(yàn)證研究[D];蘇州大學(xué);2011年
10 侯曉帆;基于云計(jì)算的Web教育爬蟲(chóng)[D];東北師范大學(xué);2011年
,本文編號(hào):1870897
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1870897.html