天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

網(wǎng)絡(luò)商品信息搜索與抽取技術(shù)應(yīng)用研究

發(fā)布時間:2019-07-11 19:03
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)購物逐漸的被人們所接受,電子商務(wù)也快速的發(fā)展起來。然而面臨網(wǎng)絡(luò)中豐富的商品,如何從中找到滿意的商品信息,,成為目前網(wǎng)絡(luò)用戶所面臨的問題之一。 網(wǎng)頁信息搜索與抽取技術(shù)是解決該問題的重要途徑之一,可細(xì)分為網(wǎng)頁搜索和信息抽取。網(wǎng)頁搜索是指從互聯(lián)網(wǎng)中搜索網(wǎng)頁,目前主要的網(wǎng)頁搜索技術(shù)有目錄搜索、全文搜索以及元搜索。信息抽取是指對網(wǎng)頁中的信息進(jìn)行結(jié)構(gòu)化處理,輸出結(jié)構(gòu)化信息,可以分為基于自然語言、包裝器、本體、HTML結(jié)構(gòu)和Web查詢五種信息抽取技術(shù),F(xiàn)有的網(wǎng)絡(luò)商品信息搜索工具如比價網(wǎng)、愛購物、比價助手等采用人工進(jìn)行規(guī)則抽取,自動化差。 本文對網(wǎng)絡(luò)商品信息搜索和抽取技術(shù)進(jìn)行了深入的研究和探討,設(shè)計(jì)了一種“雙層”元搜索引擎,并針對元搜索技術(shù)的特點(diǎn)對FindDR信息抽取算法進(jìn)行了改進(jìn)。主要工作如下: 1)提出了一種“雙層”元搜索引擎。該方法通過百度搜索引擎搜索購物網(wǎng)站,提取其中包含的購物網(wǎng)站站內(nèi)引擎信息,并以這些搜索引擎為子引擎實(shí)現(xiàn)對網(wǎng)絡(luò)商品搜索。通過“雙層”元搜索引擎可以實(shí)現(xiàn)對子搜索引擎的自動維護(hù)。 2)對FindDR算法進(jìn)行改進(jìn)。FindDR算法是一種適用于對具有重復(fù)結(jié)構(gòu)網(wǎng)頁進(jìn)行信息抽取的信息抽取算法,本文通過元搜索引擎搜索結(jié)構(gòu)網(wǎng)頁與搜索詞的對應(yīng)關(guān)系對FindDR算法進(jìn)行改進(jìn),提高了算法的運(yùn)行效率。 3)將以上設(shè)計(jì)用JAVA語言實(shí)現(xiàn)并運(yùn)用在一款網(wǎng)絡(luò)比價軟件的開發(fā)中,通過實(shí)際的大量網(wǎng)絡(luò)商品搜索實(shí)驗(yàn),驗(yàn)證了系統(tǒng)可以自動添加和維護(hù)子引擎并對商品信息進(jìn)行高效抽取。
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3;F713.36

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報(bào);2009年05期

2 程文濤;師雪霖;;以本體為指導(dǎo)的Web網(wǎng)頁信息抽取方法[J];北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

3 楊成;;基于XML的網(wǎng)頁信息提取系統(tǒng)的研究與設(shè)計(jì)[J];電腦知識與技術(shù);2009年26期

4 胡瑜;王立志;;基于HTML結(jié)構(gòu)特征的網(wǎng)頁信息提取[J];遼寧石油化工大學(xué)學(xué)報(bào);2009年03期

5 蘇國榮;楊岳湘;鄧勁生;;一種去除重復(fù)URL的算法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期

6 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期

7 顧韻華;田偉;;基于DOM模型擴(kuò)展的Web信息提取[J];計(jì)算機(jī)科學(xué);2009年11期

8 胡仁龍;袁春風(fēng);武港山;濮小佳;;基于重復(fù)模式的自動Web信息抽取[J];計(jì)算機(jī)工程;2008年22期

9 方宏;呂太之;;動態(tài)網(wǎng)頁信息提取技術(shù)在求職搜索中的應(yīng)用[J];計(jì)算機(jī)工程;2009年24期

10 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

相關(guān)會議論文 前1條

1 吳倩;楊逍;張兆心;;基于視覺特征的網(wǎng)頁信息提取[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

相關(guān)博士學(xué)位論文 前1條

1 費(fèi)巍;搜索引擎檢索功能的性能評價研究[D];武漢大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 施洋;模板獨(dú)立的網(wǎng)頁信息抽取研究[D];復(fù)旦大學(xué);2011年

2 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年

3 王琳琳;基于HTML Parser的Web信息提取技術(shù)[D];北京郵電大學(xué);2007年

4 李猛;基于DOM的Web信息抽取技術(shù)的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2008年

5 談佳寧;半監(jiān)督網(wǎng)頁分類及其在目錄式搜索引擎中的應(yīng)用研究[D];江蘇大學(xué);2008年

6 侯航;基于URL分析的主題網(wǎng)絡(luò)機(jī)器人研究[D];電子科技大學(xué);2009年

7 金岳富;Web信息采集與信息抽取技術(shù)的研究[D];哈爾濱理工大學(xué);2009年

8 丁興旺;面向網(wǎng)絡(luò)爬蟲的海量URL數(shù)據(jù)管理技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2008年

9 李亮;基于Lucene和Heritrix的職位垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年

10 王花;Web信息抽取技術(shù)研究[D];西北農(nóng)林科技大學(xué);2010年



本文編號:2513402

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2513402.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1698e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com