分布式開(kāi)放存取期刊爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:分布式開(kāi)放存取期刊爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 分布式爬蟲(chóng) 開(kāi)放存取期刊 插件機(jī)制
【摘要】:開(kāi)放存取(open access,OA)期刊屬于網(wǎng)絡(luò)深層資源且分散在互聯(lián)網(wǎng)中,傳統(tǒng)的搜索引擎不能對(duì)其建立索引,不能滿(mǎn)足用戶(hù)獲取OA期刊資源的需求,從而造成了開(kāi)放資源的浪費(fèi)。針對(duì)如何集中采集萬(wàn)維網(wǎng)上分散的開(kāi)放存取期刊資源的問(wèn)題,提出了一個(gè)面向OA期刊的分布式主題爬蟲(chóng)架構(gòu)。該架構(gòu)采用主從分布式設(shè)計(jì),提出了基于用戶(hù)預(yù)定義規(guī)則的OA期刊頁(yè)面學(xué)術(shù)信息提取方法,由一個(gè)主控中心節(jié)點(diǎn)控制多個(gè)可動(dòng)態(tài)增減的爬行節(jié)點(diǎn),采用基于Chrome瀏覽器的插件機(jī)制來(lái)實(shí)現(xiàn)分布式爬行節(jié)點(diǎn)的可擴(kuò)展性和部署的靈活性。
【作者單位】: 華南師范大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: 分布式爬蟲(chóng) 開(kāi)放存取期刊 插件機(jī)制
【基金】:國(guó)家自然科學(xué)基金 No.61272067 國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃) No.2013AA01A212 國(guó)家科技支撐計(jì)劃項(xiàng)目 No.2012BAH27F05 廣東省自然科學(xué)基金團(tuán)隊(duì)研究項(xiàng)目 No.S2012030006242 廣東省重大科技專(zhuān)項(xiàng)計(jì)劃項(xiàng)目 No.2012A080104019 廣東省科技計(jì)劃項(xiàng)目 No.2011B080100031~~
【分類(lèi)號(hào)】:TP311.52
【正文快照】: 1引言開(kāi)放存取(open access,OA)期刊是一種用戶(hù)可以免費(fèi)使用的互聯(lián)網(wǎng)學(xué)術(shù)資源,是一種重要的OA資源,而且不受任何的訪(fǎng)問(wèn)限制[1]。OA期刊為研究人員免費(fèi)獲取學(xué)術(shù)論文提供了一條嶄新的途徑,已經(jīng)成為當(dāng)代圖書(shū)館數(shù)字資源不可或缺的一部分。但是,隨著互聯(lián)網(wǎng)上OA期刊的快速增長(zhǎng),OA期
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 程維紅;任勝利;;中國(guó)科技期刊開(kāi)放存取出版現(xiàn)狀[J];編輯學(xué)報(bào);2007年03期
2 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲(chóng):研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期
3 陳瓊,蘇文健;基于網(wǎng)頁(yè)結(jié)構(gòu)樹(shù)的Web信息抽取方法[J];計(jì)算機(jī)工程;2005年20期
4 周立柱,林玲;聚焦爬蟲(chóng)技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 孫素芬;羅長(zhǎng)壽;張峻峰;于峰;張樹(shù)亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期
2 汪斌;張?jiān)苽?劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)[J];安徽農(nóng)業(yè)科學(xué);2009年20期
3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動(dòng)摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期
4 程維紅;任勝利;王應(yīng)寬;方梅;路文如;;對(duì)建設(shè)中國(guó)科協(xié)科技期刊網(wǎng)絡(luò)平臺(tái)的問(wèn)卷調(diào)查[J];編輯學(xué)報(bào);2008年05期
5 林志祥;甘可建;鐘均行;;網(wǎng)絡(luò)編輯崗位設(shè)置在科技期刊網(wǎng)絡(luò)化進(jìn)程中的重要性[J];編輯學(xué)報(bào);2008年05期
6 歐紅葉;黃穎;游中勝;李若溪;;學(xué)術(shù)期刊編輯對(duì)開(kāi)放獲取認(rèn)識(shí)的調(diào)查與分析[J];編輯學(xué)報(bào);2008年06期
7 陳竹;;我國(guó)科技期刊數(shù)字化出版的發(fā)展思路[J];編輯學(xué)報(bào);2011年S1期
8 孔琪穎;蔡斐;張利平;徐曉;;學(xué)術(shù)期刊品牌網(wǎng)絡(luò)營(yíng)銷(xiāo)——以《航空學(xué)報(bào)》中、英文版為例[J];編輯學(xué)報(bào);2011年S1期
9 余望;;OA期刊與傳統(tǒng)學(xué)術(shù)期刊的比較及我國(guó)發(fā)展OA期刊應(yīng)注意的問(wèn)題[J];中國(guó)編輯;2007年06期
10 李軍;吳寒濤;;基于開(kāi)放存取的我國(guó)體育科技期刊出版模式研究[J];首都體育學(xué)院學(xué)報(bào);2009年05期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 鄧斌;B2C在線(xiàn)評(píng)論中的客戶(hù)知識(shí)管理研究[D];電子科技大學(xué);2010年
3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測(cè)系統(tǒng)研究[D];北京郵電大學(xué);2011年
5 胡燕;基于Web信息抽取的專(zhuān)業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
6 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學(xué);2007年
7 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
8 胡德華;生物醫(yī)學(xué)類(lèi)開(kāi)放存取期刊學(xué)術(shù)質(zhì)量評(píng)價(jià)及其評(píng)價(jià)體系研究[D];中南大學(xué);2009年
9 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年
10 呂志軍;面向數(shù)字化的科技期刊出版業(yè)務(wù)流程研究[D];大連理工大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 呂芳芳;基于查詢(xún)擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
2 翁巖青;網(wǎng)頁(yè)抓取策略研究[D];哈爾濱工程大學(xué);2010年
3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 史煒;個(gè)性化搜索引擎的研究與設(shè)計(jì)[D];電子科技大學(xué);2010年
5 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2009年
6 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測(cè)系統(tǒng)研究[D];安徽大學(xué);2010年
7 陳可欽;基于垂直搜索引擎的主題爬蟲(chóng)算法的研究[D];中南林業(yè)科技大學(xué);2009年
8 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江工商大學(xué);2011年
9 張朝威;面向企業(yè)競(jìng)爭(zhēng)情報(bào)的主題搜索研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
10 劉永信;主題搜索與Web挖掘的研究及系統(tǒng)實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李若溪;黃穎;歐紅葉;游中勝;Fytton Rowland;;國(guó)際學(xué)術(shù)出版開(kāi)放式訪(fǎng)問(wèn)(OA):Ⅰ.實(shí)踐與前沿問(wèn)題研究進(jìn)展[J];編輯學(xué)報(bào);2006年03期
2 李若溪;Fytton Rowland;;國(guó)際學(xué)術(shù)出版開(kāi)放式訪(fǎng)問(wèn)(OA):Ⅱ.開(kāi)放訪(fǎng)問(wèn)期刊“作者付費(fèi)模式”的實(shí)踐與爭(zhēng)論[J];編輯學(xué)報(bào);2006年04期
3 孔令娥;電子時(shí)代的館際互借[J];大學(xué)圖書(shū)館學(xué)報(bào);2000年04期
4 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期
5 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計(jì)算機(jī)研究與發(fā)展;2004年01期
6 張三峰;吳國(guó)新;;一種面向動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)的容錯(cuò)非對(duì)稱(chēng)DHT方法[J];計(jì)算機(jī)研究與發(fā)展;2007年06期
7 余錦,史樹(shù)明;分布式網(wǎng)頁(yè)排序算法及其傳輸模式分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年29期
8 萬(wàn)源;萬(wàn)方;王大震;;一種并行Crawler系統(tǒng)中的URL分配算法設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2006年S1期
9 周雪忠;吳朝暉;;文本知識(shí)發(fā)現(xiàn):基于信息抽取的文本挖掘[J];計(jì)算機(jī)科學(xué);2003年01期
10 李晶;陳恩紅;;Web信息抽取[J];計(jì)算機(jī)科學(xué);2003年06期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 馮蓓;許潔;;我國(guó)開(kāi)放存取期刊平臺(tái)的發(fā)展思路與對(duì)策[J];中國(guó)科技期刊研究;2010年04期
2 陳美家;;中國(guó)大陸開(kāi)放存取期刊實(shí)踐現(xiàn)狀研究[J];圖書(shū)與情報(bào);2012年01期
3 陳晉;;開(kāi)放存取期刊的經(jīng)濟(jì)運(yùn)作模式[J];圖書(shū)館學(xué)刊;2012年06期
4 秦文珍;劉淑瑞;肖瓊;;開(kāi)放存取期刊質(zhì)量評(píng)價(jià)方法及其應(yīng)用比較探析[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2013年06期
5 秦珂;;開(kāi)放存取期刊的出版模式透視[J];編輯之友;2006年03期
6 劉輝;;開(kāi)放獲取期刊的現(xiàn)狀與評(píng)價(jià)分析[J];圖書(shū)館建設(shè);2006年04期
7 方翠;李榮素;;開(kāi)放存取期刊版權(quán)問(wèn)題分析[J];圖書(shū)館建設(shè);2006年05期
8 陶雯;胡德華;曲艷吉;王敏;;開(kāi)放存取期刊質(zhì)量評(píng)價(jià)方法研究[J];圖書(shū)情報(bào)工作;2006年10期
9 劉海霞;孫振球;胡德華;劉雙陽(yáng);;開(kāi)放存取期刊的經(jīng)濟(jì)學(xué)分析[J];情報(bào)理論與實(shí)踐;2007年01期
10 胡德華;尹加幫;陶雯;;發(fā)展中國(guó)家的開(kāi)放存取期刊研究[J];情報(bào)雜志;2007年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 程林仙;;學(xué)術(shù)交流新方式—開(kāi)放存取期刊[A];陜西省氣象學(xué)會(huì)2006年學(xué)術(shù)交流會(huì)論文集[C];2006年
2 沈錫賓;楊先海;吳國(guó)仕;;基于Web 2.0技術(shù)的公開(kāi)評(píng)議開(kāi)放存取期刊管理系統(tǒng)的分析與設(shè)計(jì)[A];第七屆中國(guó)科技期刊發(fā)展論壇論文集[C];2011年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 蘇金燕 中國(guó)社會(huì)科學(xué)院文獻(xiàn)計(jì)量與科學(xué)評(píng)價(jià)研究中心;開(kāi)放存取期刊質(zhì)量也有評(píng)估之法[N];中國(guó)社會(huì)科學(xué)報(bào);2011年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 周金娉;開(kāi)放存取期刊學(xué)術(shù)影響力研究[D];吉林大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條
1 路世玲;開(kāi)放存取期刊的學(xué)術(shù)影響力研究[D];鄭州大學(xué);2012年
2 李亞芳;學(xué)術(shù)型開(kāi)放存取期刊的質(zhì)量評(píng)估[D];山西大學(xué);2012年
3 陳美家;開(kāi)放存取期刊發(fā)展現(xiàn)狀及出版運(yùn)作機(jī)制研究[D];福建師范大學(xué);2012年
4 李?yuàn)檴?開(kāi)放存取期刊的質(zhì)量評(píng)價(jià)研究[D];吉林大學(xué);2013年
5 徐桂芬;科研人員對(duì)開(kāi)放存取期刊的接受研究[D];吉林大學(xué);2013年
6 魏志鵬;開(kāi)放存取期刊的盈利模式研究[D];蘭州大學(xué);2014年
7 蔣靜;開(kāi)放存取期刊綜合評(píng)價(jià)指標(biāo)體系研究[D];華東師范大學(xué);2011年
,本文編號(hào):773729
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/773729.html