網(wǎng)頁數(shù)據(jù)的自動(dòng)化抽取技術(shù)
發(fā)布時(shí)間:2021-02-15 17:21
隨著Web技術(shù)的迅猛發(fā)展,使得Web網(wǎng)頁成為信息發(fā)布的主要載體也是人們獲取信息的主要渠道之一,大量的數(shù)據(jù)以Web網(wǎng)頁形式存儲(chǔ)在互聯(lián)網(wǎng)上,因?yàn)镠TML編碼風(fēng)格各異,使得人們無法直接從Web網(wǎng)頁中抽取出結(jié)構(gòu)化數(shù)據(jù),造成了資源的極大浪費(fèi)。為了能夠獲取互聯(lián)網(wǎng)中龐大的數(shù)據(jù),人們提出了各種網(wǎng)頁數(shù)據(jù)抽取方法。根據(jù)抽取目標(biāo)的不同,可將網(wǎng)頁數(shù)據(jù)抽取分為兩種類型:(1)網(wǎng)頁正文內(nèi)容抽取,主要針對(duì)文章類型網(wǎng)頁中的正文內(nèi)容進(jìn)行抽取。(2)網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取,主要針對(duì)網(wǎng)頁中存在的實(shí)例對(duì)象進(jìn)行抽取。本文針對(duì)這兩種不同的抽取目標(biāo)分別提出了對(duì)應(yīng)的抽取方法。針對(duì)網(wǎng)頁正文抽取,因?yàn)閃eb網(wǎng)頁中除了包含正文內(nèi)容外,還包含導(dǎo)航條、廣告、版權(quán)聲明等與主題無關(guān)的噪音信息。這些龐大的噪音信息給網(wǎng)頁正文抽取帶來了巨大的挑戰(zhàn)。因此,本文提出一種基于網(wǎng)頁聚類的正文信息抽取方法,該方法主要有兩個(gè)部分組成:第一,基于網(wǎng)頁的結(jié)構(gòu)特征對(duì)網(wǎng)頁進(jìn)行聚類;第二,面向相似網(wǎng)頁集合的正文內(nèi)容塊的位置特征生成。采用該方法可以從多種類型的網(wǎng)頁中抽取正文內(nèi)容信息。針對(duì)網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)抽取,目前主要采用DOM樹路徑來作為抽取規(guī)則。然而,基于DOM路徑的抽取規(guī)則使得...
【文章來源】:福州大學(xué)福建省 211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1中國網(wǎng)民規(guī)模和話聯(lián)網(wǎng)普及率??Web息抽取可分為兩種類型:(1)網(wǎng)頁正文抽取,主要針對(duì)網(wǎng)頁中的正文??
Web?網(wǎng)頁主要是由?HTML?文檔組成的,HTML?(Hyper?Text?Markup?Language)??超文本標(biāo)記語言,是一種標(biāo)記語言,使用標(biāo)記標(biāo)簽來描述網(wǎng)頁。HTML是一種規(guī)??范,一種標(biāo)準(zhǔn),它通過標(biāo)記符號(hào)來標(biāo)記要顯示的網(wǎng)頁中的各個(gè)部分[4],圖2-1是一??個(gè)簡單的HTML文檔和對(duì)應(yīng)在IE瀏覽器下的顯示效果。HTML語言中包含有各??種各樣的標(biāo)簽,常見的類型有文檔標(biāo)簽、布局標(biāo)簽、表格標(biāo)簽、列表標(biāo)簽和文章??標(biāo)簽,具體如表2-1所示。在HTML標(biāo)簽中通常有三種類型的屬性:id、class、??style。id是標(biāo)簽的標(biāo)識(shí),class是標(biāo)簽所屬的類,用于指定元素顯示樣式的類,style??用于指定標(biāo)簽的顯示風(fēng)格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉(xiāng)??saw?_A>膚鴨(H)??¥?卜?會(huì)??i?8?n〇?world*?Hello?World???t?卜??圖2-1?HTML實(shí)例??HTML是半結(jié)構(gòu)化的,因此我們無法直接從HTML中抽取出結(jié)構(gòu)化數(shù)據(jù)。為??了方便處理HTML,人們通常將其轉(zhuǎn)化為樹型結(jié)構(gòu),如圖2-2為圖2-1中HTML??對(duì)應(yīng)的DOM樹模型。DOM?(Document?Object?Model)是文檔對(duì)象模型的簡稱⑶,??專門使用于HTML、XML等文檔對(duì)象模型,它將網(wǎng)頁中的各個(gè)標(biāo)簽元素看作DOM??樹節(jié)點(diǎn)的對(duì)象
Web?網(wǎng)頁主要是由?HTML?文檔組成的,HTML?(Hyper?Text?Markup?Language)??超文本標(biāo)記語言,是一種標(biāo)記語言,使用標(biāo)記標(biāo)簽來描述網(wǎng)頁。HTML是一種規(guī)??范,一種標(biāo)準(zhǔn),它通過標(biāo)記符號(hào)來標(biāo)記要顯示的網(wǎng)頁中的各個(gè)部分[4],圖2-1是一??個(gè)簡單的HTML文檔和對(duì)應(yīng)在IE瀏覽器下的顯示效果。HTML語言中包含有各??種各樣的標(biāo)簽,常見的類型有文檔標(biāo)簽、布局標(biāo)簽、表格標(biāo)簽、列表標(biāo)簽和文章??標(biāo)簽,具體如表2-1所示。在HTML標(biāo)簽中通常有三種類型的屬性:id、class、??style。id是標(biāo)簽的標(biāo)識(shí),class是標(biāo)簽所屬的類,用于指定元素顯示樣式的類,style??用于指定標(biāo)簽的顯示風(fēng)格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉(xiāng)??saw?_A>膚鴨(H)??¥?卜?會(huì)??i?8?n〇?world*?Hello?World???t?卜??圖2-1?HTML實(shí)例??HTML是半結(jié)構(gòu)化的,因此我們無法直接從HTML中抽取出結(jié)構(gòu)化數(shù)據(jù)。為??了方便處理HTML,人們通常將其轉(zhuǎn)化為樹型結(jié)構(gòu),如圖2-2為圖2-1中HTML??對(duì)應(yīng)的DOM樹模型。DOM?(Document?Object?Model)是文檔對(duì)象模型的簡稱⑶,??專門使用于HTML、XML等文檔對(duì)象模型,它將網(wǎng)頁中的各個(gè)標(biāo)簽元素看作DOM??樹節(jié)點(diǎn)的對(duì)象
【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)簽路徑特征融合的在線Web新聞內(nèi)容抽取[J]. 吳共慶,胡駿,李莉,徐喆昊,劉鵬程,胡學(xué)鋼,吳信東. 軟件學(xué)報(bào). 2016(03)
[2]一種基于節(jié)點(diǎn)密度分割和標(biāo)簽傳播的Web頁面挖掘方法[J]. 張乃洲,曹薇,李石君. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[3]頁面包裝器自動(dòng)生成的改進(jìn)算法[J]. 李文奇,張忠能. 計(jì)算機(jī)工程與應(yīng)用. 2004(22)
[4]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(10)
碩士論文
[1]基于網(wǎng)頁結(jié)構(gòu)聚類的Web信息提取技術(shù)研究[D]. 廖浩偉.西南交通大學(xué) 2013
[2]基于半自動(dòng)化WEB數(shù)據(jù)抽取器的信息集成研究[D]. 吳俊霖.西南大學(xué) 2010
本文編號(hào):3035248
【文章來源】:福州大學(xué)福建省 211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1中國網(wǎng)民規(guī)模和話聯(lián)網(wǎng)普及率??Web息抽取可分為兩種類型:(1)網(wǎng)頁正文抽取,主要針對(duì)網(wǎng)頁中的正文??
Web?網(wǎng)頁主要是由?HTML?文檔組成的,HTML?(Hyper?Text?Markup?Language)??超文本標(biāo)記語言,是一種標(biāo)記語言,使用標(biāo)記標(biāo)簽來描述網(wǎng)頁。HTML是一種規(guī)??范,一種標(biāo)準(zhǔn),它通過標(biāo)記符號(hào)來標(biāo)記要顯示的網(wǎng)頁中的各個(gè)部分[4],圖2-1是一??個(gè)簡單的HTML文檔和對(duì)應(yīng)在IE瀏覽器下的顯示效果。HTML語言中包含有各??種各樣的標(biāo)簽,常見的類型有文檔標(biāo)簽、布局標(biāo)簽、表格標(biāo)簽、列表標(biāo)簽和文章??標(biāo)簽,具體如表2-1所示。在HTML標(biāo)簽中通常有三種類型的屬性:id、class、??style。id是標(biāo)簽的標(biāo)識(shí),class是標(biāo)簽所屬的類,用于指定元素顯示樣式的類,style??用于指定標(biāo)簽的顯示風(fēng)格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉(xiāng)??saw?_A>膚鴨(H)??¥?卜?會(huì)??i?8?n〇?world*?Hello?World???t?卜??圖2-1?HTML實(shí)例??HTML是半結(jié)構(gòu)化的,因此我們無法直接從HTML中抽取出結(jié)構(gòu)化數(shù)據(jù)。為??了方便處理HTML,人們通常將其轉(zhuǎn)化為樹型結(jié)構(gòu),如圖2-2為圖2-1中HTML??對(duì)應(yīng)的DOM樹模型。DOM?(Document?Object?Model)是文檔對(duì)象模型的簡稱⑶,??專門使用于HTML、XML等文檔對(duì)象模型,它將網(wǎng)頁中的各個(gè)標(biāo)簽元素看作DOM??樹節(jié)點(diǎn)的對(duì)象
Web?網(wǎng)頁主要是由?HTML?文檔組成的,HTML?(Hyper?Text?Markup?Language)??超文本標(biāo)記語言,是一種標(biāo)記語言,使用標(biāo)記標(biāo)簽來描述網(wǎng)頁。HTML是一種規(guī)??范,一種標(biāo)準(zhǔn),它通過標(biāo)記符號(hào)來標(biāo)記要顯示的網(wǎng)頁中的各個(gè)部分[4],圖2-1是一??個(gè)簡單的HTML文檔和對(duì)應(yīng)在IE瀏覽器下的顯示效果。HTML語言中包含有各??種各樣的標(biāo)簽,常見的類型有文檔標(biāo)簽、布局標(biāo)簽、表格標(biāo)簽、列表標(biāo)簽和文章??標(biāo)簽,具體如表2-1所示。在HTML標(biāo)簽中通常有三種類型的屬性:id、class、??style。id是標(biāo)簽的標(biāo)識(shí),class是標(biāo)簽所屬的類,用于指定元素顯示樣式的類,style??用于指定標(biāo)簽的顯示風(fēng)格。??一<'〇ocnfPE?fctaa>|?料?/??'Wo.<d.Ktml?j??4?n?1nimn—娜娜-?-—????酋文雜鄉(xiāng)??saw?_A>膚鴨(H)??¥?卜?會(huì)??i?8?n〇?world*?Hello?World???t?卜??圖2-1?HTML實(shí)例??HTML是半結(jié)構(gòu)化的,因此我們無法直接從HTML中抽取出結(jié)構(gòu)化數(shù)據(jù)。為??了方便處理HTML,人們通常將其轉(zhuǎn)化為樹型結(jié)構(gòu),如圖2-2為圖2-1中HTML??對(duì)應(yīng)的DOM樹模型。DOM?(Document?Object?Model)是文檔對(duì)象模型的簡稱⑶,??專門使用于HTML、XML等文檔對(duì)象模型,它將網(wǎng)頁中的各個(gè)標(biāo)簽元素看作DOM??樹節(jié)點(diǎn)的對(duì)象
【參考文獻(xiàn)】:
期刊論文
[1]基于標(biāo)簽路徑特征融合的在線Web新聞內(nèi)容抽取[J]. 吳共慶,胡駿,李莉,徐喆昊,劉鵬程,胡學(xué)鋼,吳信東. 軟件學(xué)報(bào). 2016(03)
[2]一種基于節(jié)點(diǎn)密度分割和標(biāo)簽傳播的Web頁面挖掘方法[J]. 張乃洲,曹薇,李石君. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[3]頁面包裝器自動(dòng)生成的改進(jìn)算法[J]. 李文奇,張忠能. 計(jì)算機(jī)工程與應(yīng)用. 2004(22)
[4]信息抽取研究綜述[J]. 李保利,陳玉忠,俞士汶. 計(jì)算機(jī)工程與應(yīng)用. 2003(10)
碩士論文
[1]基于網(wǎng)頁結(jié)構(gòu)聚類的Web信息提取技術(shù)研究[D]. 廖浩偉.西南交通大學(xué) 2013
[2]基于半自動(dòng)化WEB數(shù)據(jù)抽取器的信息集成研究[D]. 吳俊霖.西南大學(xué) 2010
本文編號(hào):3035248
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3035248.html
最近更新
教材專著