基于疊加編碼的Web網(wǎng)頁(yè)抓取路徑損耗估計(jì)
發(fā)布時(shí)間:2017-09-18 18:24
本文關(guān)鍵詞:基于疊加編碼的Web網(wǎng)頁(yè)抓取路徑損耗估計(jì)
更多相關(guān)文章: Web網(wǎng)頁(yè) 文本特征 抓取路徑 數(shù)據(jù)挖掘
【摘要】:對(duì)Web網(wǎng)頁(yè)抓取是實(shí)現(xiàn)Web文本特征數(shù)據(jù)檢索的最佳方式,Web網(wǎng)頁(yè)抓取路徑損耗誤差的優(yōu)化估計(jì)可以提高對(duì)Web數(shù)據(jù)的挖掘性能。傳統(tǒng)方法中,對(duì)Web網(wǎng)頁(yè)抓取采用基于線性濾波檢測(cè)的單模匹配抓取方法,受弱信號(hào)幅度和臨界閾值約束,路徑損耗較大,且無(wú)法有效實(shí)現(xiàn)路徑損耗誤差有效估計(jì)。提出一種基于疊加編碼特征統(tǒng)計(jì)的Web網(wǎng)頁(yè)抓取路徑損耗誤差估計(jì)算法。構(gòu)建Web網(wǎng)頁(yè)文本特征抓取的目標(biāo)函數(shù),進(jìn)行Web網(wǎng)絡(luò)路徑損耗模型構(gòu)建,設(shè)計(jì)疊加編碼算法進(jìn)行特征統(tǒng)計(jì),得到Web網(wǎng)頁(yè)抓取路徑概念格。仿真實(shí)驗(yàn)表明,該算法能有效提高Web網(wǎng)頁(yè)抓取路徑損耗誤差估計(jì)精度,進(jìn)而提高了Web網(wǎng)頁(yè)文本數(shù)據(jù)抓取的查準(zhǔn)率和文本特征數(shù)據(jù)的挖掘性能。
【作者單位】: 邢臺(tái)廣播電視大學(xué);
【關(guān)鍵詞】: Web網(wǎng)頁(yè) 文本特征 抓取路徑 數(shù)據(jù)挖掘
【分類號(hào)】:TP393.092;TP391.1
【正文快照】: 0引言隨著信息技術(shù)的快速發(fā)展,特別是互聯(lián)網(wǎng)的應(yīng)用及普及,網(wǎng)絡(luò)信息存儲(chǔ)呈爆炸式增加趨勢(shì)。Web網(wǎng)頁(yè)包含海量信息,需要對(duì)其進(jìn)行文本數(shù)據(jù)挖掘和抓取,Web網(wǎng)頁(yè)結(jié)構(gòu),層次復(fù)雜,更新頻繁,個(gè)性特征強(qiáng),主題信息受到各種信息的干擾,對(duì)其有效的抓取是實(shí)現(xiàn)文本信息特征索引和挖掘的關(guān)鍵。在
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前3條
1 劉燕;;基于云計(jì)算信息處理系統(tǒng)體系結(jié)構(gòu)設(shè)計(jì)[J];科技通報(bào);2012年08期
2 饒翔;王懷民;陳振邦;周揚(yáng)帆;蔡華;周琦;孫廷韜;;云計(jì)算系統(tǒng)中基于伴隨狀態(tài)追蹤的故障檢測(cè)機(jī)制[J];計(jì)算機(jī)學(xué)報(bào);2012年05期
3 覃雄派;王會(huì)舉;李芙蓉;李翠平;陳紅;周p,
本文編號(hào):877137
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/877137.html
最近更新
教材專著