基于元搜索的信息采集平臺設計與實現
【圖文】:
保證信息采集更新的及時性和全面性;然后是對信息做多元化處理并發(fā)現熱點的信息聚成模塊,對已有海量信息做到多元化的匯總和統(tǒng)計,最大化挖掘出有效信息;最終是對用戶提供統(tǒng)計信息的發(fā)布模塊,融合多種呈現效果的動態(tài)圖表和高效的信息列表,以及海量數據的全文檢索,將處理過的二次數據展示給最終用戶。2.1功能模塊及工作流程首先是采集模塊通過配置的焦點采集到信息,再對信息進行去重、熱點計算等處理后存入數據庫和文件系統(tǒng)中,最終發(fā)布模塊使用戶看到豐富的經過二次處理的數據和信息。它整個的功能模塊及其流程如圖1所示。圖1采集平臺功能模塊及其流程(1)分時啟動采集線程多引擎多焦點的采集任務量耗時且繁重,,單線程隊列式采集模式不能在特定時間段內有效的完成,所以需要采用以焦點為切入口發(fā)起多線程采集機制對任務進行分解采集,將采集任務分給多個線程來完成,這種模式可以使若干個焦點在一定時間內完成采集。由于采集任務是采用周期性運行的模式,考慮到每次采集啟動時,初期所有線程會同時啟動,需要消耗大量的硬件資源和網絡資源,后期大部分線程退出后資源又不能有效利用,可以將線程劃分到不同的時間段中發(fā)起,使采集高效有序地進行。對于n個焦點,以現有設定的4個搜索引擎(百度谷歌單頁完成特定條數采集,奇虎搜索需分10頁采集),采集任務啟動后會發(fā)生最多n×22次對搜索引擎的訪問,最多解析到n×400條最新信息,去重、熱點分析、統(tǒng)計信息更新,目標頁面主體獲取等操作會造成對網絡和數據庫的頻繁訪問,如果一個時點同時啟動各個搜索引擎的采集線程,會對服務器硬件和網絡環(huán)境造成過大的壓力,對搜索引擎頻繁的訪問也容易被列入非正常訪問黑名單,所以采用分時啟動采集線程的模式執(zhí)行采集任務。在采集前先根據當前
【作者單位】: 軍工思波信息科技產業(yè)有限公司;
【分類號】:TP311.52
【共引文獻】
相關期刊論文 前6條
1 魏玖長,趙定濤;基于元搜索引擎的危機信息監(jiān)控系統(tǒng)的研究與實現[J];管理科學;2005年05期
2 鮑宗泛,曹永生,孔繁勝;廣域網數據庫查詢系統(tǒng)及其實現[J];計算機工程與應用;2004年07期
3 馬家宇,陽小華,劉振宇,陶滔,譚敏生;基于弱實時系統(tǒng)的元搜索引擎合成策略[J];計算技術與自動化;2004年02期
4 王雁杰;元搜索引擎的發(fā)展悖論及建議[J];情報雜志;2004年07期
5 王敏,楊炳儒;基于主題的個性化元搜索引擎的設計與實現[J];情報雜志;2005年07期
6 魏玖長;趙定濤;;危機事件社會影響的評估與分析[J];中國軟科學;2006年06期
相關博士學位論文 前2條
1 魏玖長;危機事件社會影響的分析與評估研究[D];中國科學技術大學;2006年
2 吳麗輝;個性化的Web信息采集技術研究[D];中國科學院研究生院(計算技術研究所);2005年
相關碩士學位論文 前9條
1 鮑宗泛;廣域網數據庫查詢系統(tǒng)的研究與開發(fā)[D];浙江大學;2004年
2 張磊;基于P2P的信息共享Agent研究[D];浙江大學;2005年
3 陳默;基于神經網絡的元搜索引擎[D];浙江大學;2006年
4 許又泉;一種網絡學習系統(tǒng)的研究與設計[D];湖南大學;2006年
5 江濤;元搜索引擎及網頁分析器的設計與實現[D];吉林大學;2006年
6 鄧忠京;基于多線程與代理模式的企業(yè)網絡機器人研究[D];暨南大學;2006年
7 王艷芬;基于本體技術的元搜索引擎XXYJ系統(tǒng)的設計與實現[D];蘇州大學;2007年
8 侯凡;文本分類技術在綜合風險元搜索引擎中的研究與實現[D];西北大學;2008年
9 種梅;元搜索引擎中的關鍵技術研究[D];山東師范大學;2008年
【二級參考文獻】
相關期刊論文 前2條
1 張魁麟,邵春福,王力劭;基于分布式并行算法的動態(tài)交通流分配研究[J];北方交通大學學報;2002年05期
2 李廣建,黃];元搜索引擎及其主要技術[J];情報科學;2002年02期
【相似文獻】
相關期刊論文 前10條
1 李培;;元搜索引擎資源選擇融合方法的研究[J];圖書館工作與研究;2011年08期
2 陳永平;楊思春;毛萬勝;蘇新;劉俞;;中文問答系統(tǒng)中基于主題和焦點的問題理解[J];計算機系統(tǒng)應用;2011年06期
3 宋立軍;;淺論網絡數學搜索中的數學查詢語言與索引的研究[J];科技創(chuàng)新導報;2011年21期
4 熊晶;王愛民;徐建良;;基于領域本體的信息檢索優(yōu)化策略[J];計算機工程與設計;2011年08期
5 ;掌中資源站[J];電腦迷;2011年11期
6 崇芬;;模擬暗房操作,讓照片呈現奧頓效果[J];電腦愛好者;2011年11期
7 齊書陽;;平板神話[J];電腦愛好者;2011年09期
8 成劍英;;網絡環(huán)境下高校教師個性化教學資源庫的構建[J];江西行政學院學報;2011年03期
9 何光虹;趙英凱;李彥文;;網絡信息監(jiān)測采集技術在中醫(yī)藥情報研究中的應用[J];醫(yī)學信息(上旬刊);2011年09期
10 潘加宇;;CMMI1.3[J];程序員;2010年11期
相關會議論文 前10條
1 陽小華;劉振宇;譚敏生;劉杰;左貴啟;;元搜索引擎查詢結果的合成方法[A];第十九屆全國數據庫學術會議論文集(研究報告篇)[C];2002年
2 李慧;張民;宋源清;;網絡搜索引擎[A];2009全國計算機網絡與通信學術會議論文集[C];2009年
3 孟奇奎;;一種基于數據庫和用戶反饋信息的元搜索引擎數據庫選擇算法[A];第二十一屆中國數據庫學術會議論文集(技術報告篇)[C];2004年
4 余晉;鄧志鴻;田敬;唐世渭;;PinkySearch:基于聚類的元搜索引擎[A];第二十二屆中國數據庫學術會議論文集(研究報告篇)[C];2005年
5 吳冷冬;童云海;唐世渭;;面向在線音樂視頻的元搜索引擎VMS[A];第二十四屆中國數據庫學術會議論文集(技術報告篇)[C];2007年
6 夏小玲;祁博民;廖順和;;基于Web服務和元搜索引擎的數字圖書館中元數據互操作框架[A];第二十四屆中國數據庫學術會議論文集(技術報告篇)[C];2007年
7 陳偉雄;馬少平;步建華;;基于元搜索引擎的多關鍵詞檢索技術[A];廣東省電機工程學會2003-2004年度優(yōu)秀論文集[C];2005年
8 梁偉賢;;網絡搜索引擎發(fā)展現狀的探討[A];2007中國科協年會——通信與信息發(fā)展高層論壇論文集[C];2007年
9 周小平;梁一平;鄧左祥;;元搜索引擎研究[A];2009年中國高校通信類院系學術研討會論文集[C];2009年
10 吳遠紅;徐妙君;范銀琛;;元搜索引擎中基于OWA算子的查詢結果合成研究[A];2007年全國開放式分布與并行計算機學術會議論文集(上冊)[C];2007年
相關重要報紙文章 前10條
1 武萍;CAD應用的下一個焦點[N];中華建筑報;2008年
2 朱玲;協同:國產CAD的突破口[N];科技日報;2007年
3 本報記者 鄭昊 徐穎;網絡地址資源:中小企業(yè)爭奪的新焦點[N];陜西日報;2006年
4 張琳;安全電子商務成為新焦點[N];網絡世界;2007年
5 李佳師;虛擬化、商業(yè)智能 微軟下一代平臺的焦點[N];中國電子報;2008年
6 周童;SolidWorks 2008為設計注入靈感[N];計算機世界;2008年
7 加寶;U盤殺毒技術成行業(yè)競爭新焦點[N];通信信息報;2007年
8 雷穎;中小企業(yè)實施ERP的成功因素[N];財會信報;2007年
9 高雪娟;未來競爭有三個焦點[N];中國計算機報;2006年
10 IDC中國軟件與服務研究部研究主管經理 韓國華;軟件外包和中小企業(yè)市場被看好[N];計算機世界;2007年
相關博士學位論文 前3條
1 李紅梅;智能元搜索引擎關鍵技術研究[D];西安電子科技大學;2009年
2 李強;基于本體論的個性化和社會化元搜索引擎的研究[D];浙江大學;2006年
3 劉煒;智能元搜索引擎中個性化模式庫的研究[D];太原理工大學;2007年
相關碩士學位論文 前10條
1 王金棟;元搜索引擎調度策略及結果排序算法的研究[D];燕山大學;2010年
2 王新;一種垂直元搜索引擎的研究[D];西北大學;2010年
3 馮冰潔;后綴樹算法在元搜索引擎中的應用[D];暨南大學;2010年
4 張鑫;基于本體論的領域元搜索引擎的研究與設計[D];蘭州大學;2010年
5 蔡宇虹;基于主題的元搜索引擎關鍵技術研究[D];哈爾濱工程大學;2010年
6 劉林;基于語義的元搜索引擎關鍵技術研究[D];河南工業(yè)大學;2010年
7 程賓;基于用戶興趣模型的元搜索引擎的研究[D];山東科技大學;2010年
8 王春艷;元搜索引擎的研究與實現[D];吉林大學;2011年
9 劉海;建立基于元搜索引擎的語音庫查詢收集系統(tǒng)[D];淮北師范大學;2011年
10 李亞;元搜索引擎的個性化技術研究[D];燕山大學;2011年
本文編號:2522798
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2522798.html