天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

林產(chǎn)品供求WEB信息增量獲取

發(fā)布時(shí)間:2017-12-14 09:36

  本文關(guān)鍵詞:林產(chǎn)品供求WEB信息增量獲取


  更多相關(guān)文章: 林產(chǎn)品貿(mào)易信息 增量爬蟲 LCS 泊松分布 模版


【摘要】:近年來,互聯(lián)網(wǎng)的高速發(fā)展與快速普及使得信息無處不在、無孔不入。伴隨著互聯(lián)網(wǎng)的發(fā)展,我國的林產(chǎn)品貿(mào)易信息類網(wǎng)站也日益成熟,林產(chǎn)品貿(mào)易信息的數(shù)量急劇增加,用戶面對海量的數(shù)據(jù)信息很容易產(chǎn)生信息迷航,針對這些問題面向林產(chǎn)品貿(mào)易信息的信息聚合網(wǎng)站和垂直搜索引擎等網(wǎng)絡(luò)應(yīng)用系統(tǒng)應(yīng)運(yùn)而生。此類應(yīng)用需要從不同的信息源中將Web網(wǎng)頁抓取下來,經(jīng)信息提取、信息融合等環(huán)節(jié),將信息存儲至本地?cái)?shù)據(jù)庫,在該過程中網(wǎng)絡(luò)爬蟲負(fù)責(zé)將Web頁面抓取至本地,是整個(gè)過程的基礎(chǔ)。然而Web信息數(shù)據(jù)量巨大,分布廣泛,更新變化頻繁,在有限的時(shí)間和資源內(nèi)獲取足夠多的有效的數(shù)據(jù)成為傳統(tǒng)爬蟲的一個(gè)巨大挑戰(zhàn)。為了解決此問題,增量爬蟲逐漸成為近年來學(xué)者們研究的熱點(diǎn)。 本文首先對林產(chǎn)品貿(mào)易Web網(wǎng)站的結(jié)構(gòu)以及貿(mào)易信息特點(diǎn)進(jìn)行了總結(jié)分析,針對林產(chǎn)品貿(mào)易Web網(wǎng)站結(jié)構(gòu)類似且多采用目錄導(dǎo)航結(jié)構(gòu)的特點(diǎn),構(gòu)建了基于模版的林產(chǎn)品貿(mào)易主題Web網(wǎng)頁抓取程序。而后,根據(jù)林產(chǎn)品貿(mào)易Web信息特征,提出了基于LCS(Longest Common Subsequence,最長公共子序列)的林產(chǎn)品貿(mào)易Web信息去噪方法。根據(jù)Web頁面更新變化特點(diǎn),構(gòu)建了基于URL和網(wǎng)頁內(nèi)容變化的增量抓取程序。文章最后選取了比較有代表性的林產(chǎn)品貿(mào)易網(wǎng)站為實(shí)驗(yàn)對象對本系統(tǒng)進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明該系統(tǒng)能準(zhǔn)確抓取到林產(chǎn)品貿(mào)易Web信息,并利用較少的時(shí)間和網(wǎng)絡(luò)資源完成網(wǎng)頁的更新。
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:F326.2;F323.7

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前1條

1 孟濤;王繼民;閆宏飛;;網(wǎng)頁變化與增量搜集技術(shù)[J];軟件學(xué)報(bào);2006年05期

,

本文編號:1287429

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1287429.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3a812***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com