天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 教育論文 > 教改課改論文 >

信息化教育領(lǐng)域的Web信息抽取技術(shù)研究

發(fā)布時(shí)間:2019-08-28 11:45
【摘要】: 計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)(Internet)的迅猛發(fā)展,使Web發(fā)展成為一個(gè)全球的、巨大的、分布和共享的信息空間,Web作為一個(gè)龐大的資源庫(kù),給人們的學(xué)習(xí)、生活和工作帶來(lái)了巨大的便利。然而面對(duì)Web上的海量信息,人們卻陷入了“數(shù)據(jù)豐富,知識(shí)貧乏”的尷尬境地。由于目前的Web數(shù)據(jù)大多以HTML的形式出現(xiàn),使得應(yīng)用程序無(wú)法直接獲取Web上的信息。Web信息抽取技術(shù)正是在這一背景下應(yīng)運(yùn)而生。 本文分析了一些典型的信息抽取系統(tǒng)技術(shù)特點(diǎn),并探討了在信息化教育中,從學(xué)習(xí)者的需求出發(fā),抽取個(gè)性化的服務(wù)信息。本文實(shí)現(xiàn)了一個(gè)基于文檔結(jié)構(gòu)樹(shù)的個(gè)性化信息抽取系統(tǒng)。本系統(tǒng)主要分為兩個(gè)部分,抽取規(guī)則的定義以及抽取規(guī)則的執(zhí)行。在抽取規(guī)則的定義階段,首先將獲取的HTML結(jié)構(gòu)的網(wǎng)頁(yè)進(jìn)行規(guī)范化處理,轉(zhuǎn)換為格式規(guī)范、語(yǔ)義清晰的XML文件,生成對(duì)應(yīng)文檔的DOM樹(shù),然后由用戶指定待抽取信息的位置以及對(duì)應(yīng)的目的表的模式,最后根據(jù)這些信息生成抽取規(guī)則。在抽取規(guī)則執(zhí)行階段,系統(tǒng)根據(jù)用戶定義的抽取規(guī)則抽取Web數(shù)據(jù)并將其加載到指定位置的目的表中。
【圖文】:

示意圖,信息抽取,過(guò)程,示意圖


報(bào)分析和檢測(cè)、比價(jià)購(gòu)物、自動(dòng)文摘、文本分類等各種應(yīng)用提供服務(wù)。廣義上信息抽取技術(shù)的抽取對(duì)象并不局限于文本,其他形式存在的信息也可以作為信息抽取的對(duì)象,而抽取的結(jié)果則變?yōu)橄鄳?yīng)的結(jié)構(gòu)數(shù)據(jù)。廣義上信息抽取的過(guò)程如圖2.1所示。已有的結(jié)構(gòu)化數(shù)據(jù)、介抽取出的結(jié)構(gòu)化數(shù)據(jù)廠//本1尹工文一l日日﨎Web網(wǎng)頁(yè)/廠/對(duì)抽取出的信塾報(bào)告/J析分息…為義圖2.1信息抽取過(guò)程示意圖信息抽取技術(shù)的最終目的就是開(kāi)發(fā)實(shí)用的信息抽取系統(tǒng),從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。信息抽取技術(shù)在軍事、經(jīng)濟(jì)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域有著極大的應(yīng)用空間。

文檔,示例,尾聲


XML不僅可以表達(dá)數(shù)據(jù)的內(nèi)容,同時(shí)可以特定的應(yīng)用,開(kāi)發(fā)人員可以創(chuàng)建特定的數(shù)據(jù)類型,通過(guò)使可以在不同的系統(tǒng)之間交換異構(gòu)的結(jié)構(gòu)化數(shù)據(jù),使用XM構(gòu)化數(shù)據(jù)的集成等。XML數(shù)據(jù)模型與半結(jié)構(gòu)化數(shù)據(jù)之間許多半結(jié)構(gòu)化數(shù)據(jù)模型的研究可以容易地應(yīng)用到XML數(shù)XML的語(yǔ)法結(jié)構(gòu)式良好的XML文檔由三個(gè)部分組成:一個(gè)可選的序言(p(body),由一個(gè)和多個(gè)元素組成,其形式為一個(gè)可能包含字選的尾聲(ePilog),其內(nèi)容包括注釋、處理指令(proeessingi/或緊跟元素樹(shù)后面的空白。言和尾聲部分都是可選的,下面我們就主要以圖3.2中的。
【學(xué)位授予單位】:天津師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2008
【分類號(hào)】:G434

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李龍;教育技術(shù)學(xué)科的定義體系——一論教育技術(shù)學(xué)科的理論與實(shí)踐[J];電化教育研究;2003年09期

2 陳少飛,郝亞南,李天柱,徐林昊,楊文柱;Web信息抽取技術(shù)研究進(jìn)展[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期

3 ;中國(guó)科學(xué)院學(xué)部委員羅沛霖同志在計(jì)算機(jī)工程與應(yīng)用學(xué)會(huì)成立大會(huì)上的講話[J];計(jì)算機(jī)工程與應(yīng)用;1986年01期

4 胡睿,張冬茉,杜蓬;基于結(jié)點(diǎn)語(yǔ)義關(guān)系的信息抽取技術(shù)[J];計(jì)算機(jī)工程;2001年04期

5 朱明,王軍,王俊普;基于多層模式的多記錄網(wǎng)頁(yè)信息抽取方法[J];計(jì)算機(jī)工程;2001年09期

6 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期

7 楊文柱,李智玲,徐林昊,李天柱;基于信息抽取的Web查詢系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2003年02期

8 王敬普;林亞平;周順先;岳文;;基于包裝器模型的文本信息抽取[J];計(jì)算機(jī)應(yīng)用;2006年03期

9 陸科進(jìn),李新穎;基于Ontology的文本信息抽取[J];計(jì)算機(jī)應(yīng)用研究;2003年07期

10 何典,宋中山;基于Web挖掘的個(gè)性化網(wǎng)絡(luò)教育研究[J];計(jì)算機(jī)與現(xiàn)代化;2005年05期



本文編號(hào):2530130

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jiaoyulunwen/jgkg/2530130.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0a58d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com