林產(chǎn)品供求WEB信息增量獲取
發(fā)布時(shí)間:2017-12-14 09:36
本文關(guān)鍵詞:林產(chǎn)品供求WEB信息增量獲取
更多相關(guān)文章: 林產(chǎn)品貿(mào)易信息 增量爬蟲 LCS 泊松分布 模版
【摘要】:近年來,互聯(lián)網(wǎng)的高速發(fā)展與快速普及使得信息無處不在、無孔不入。伴隨著互聯(lián)網(wǎng)的發(fā)展,我國的林產(chǎn)品貿(mào)易信息類網(wǎng)站也日益成熟,林產(chǎn)品貿(mào)易信息的數(shù)量急劇增加,用戶面對海量的數(shù)據(jù)信息很容易產(chǎn)生信息迷航,針對這些問題面向林產(chǎn)品貿(mào)易信息的信息聚合網(wǎng)站和垂直搜索引擎等網(wǎng)絡(luò)應(yīng)用系統(tǒng)應(yīng)運(yùn)而生。此類應(yīng)用需要從不同的信息源中將Web網(wǎng)頁抓取下來,經(jīng)信息提取、信息融合等環(huán)節(jié),將信息存儲至本地?cái)?shù)據(jù)庫,在該過程中網(wǎng)絡(luò)爬蟲負(fù)責(zé)將Web頁面抓取至本地,是整個(gè)過程的基礎(chǔ)。然而Web信息數(shù)據(jù)量巨大,分布廣泛,更新變化頻繁,在有限的時(shí)間和資源內(nèi)獲取足夠多的有效的數(shù)據(jù)成為傳統(tǒng)爬蟲的一個(gè)巨大挑戰(zhàn)。為了解決此問題,增量爬蟲逐漸成為近年來學(xué)者們研究的熱點(diǎn)。 本文首先對林產(chǎn)品貿(mào)易Web網(wǎng)站的結(jié)構(gòu)以及貿(mào)易信息特點(diǎn)進(jìn)行了總結(jié)分析,針對林產(chǎn)品貿(mào)易Web網(wǎng)站結(jié)構(gòu)類似且多采用目錄導(dǎo)航結(jié)構(gòu)的特點(diǎn),構(gòu)建了基于模版的林產(chǎn)品貿(mào)易主題Web網(wǎng)頁抓取程序。而后,根據(jù)林產(chǎn)品貿(mào)易Web信息特征,提出了基于LCS(Longest Common Subsequence,最長公共子序列)的林產(chǎn)品貿(mào)易Web信息去噪方法。根據(jù)Web頁面更新變化特點(diǎn),構(gòu)建了基于URL和網(wǎng)頁內(nèi)容變化的增量抓取程序。文章最后選取了比較有代表性的林產(chǎn)品貿(mào)易網(wǎng)站為實(shí)驗(yàn)對象對本系統(tǒng)進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明該系統(tǒng)能準(zhǔn)確抓取到林產(chǎn)品貿(mào)易Web信息,并利用較少的時(shí)間和網(wǎng)絡(luò)資源完成網(wǎng)頁的更新。
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:F326.2;F323.7
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 孟濤;王繼民;閆宏飛;;網(wǎng)頁變化與增量搜集技術(shù)[J];軟件學(xué)報(bào);2006年05期
,本文編號:1287429
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1287429.html
最近更新
教材專著