基于聯(lián)通主義的自適應(yīng)Web信息抽取研究
發(fā)布時間:2021-05-26 18:11
隨著大數(shù)據(jù)時代的到來,人們可以通過網(wǎng)絡(luò)獲得不斷更新的學習資源,通過整合并結(jié)構(gòu)化存儲這些學習資源,可以實現(xiàn)對學習資源的鏈接,并且便于對學習資源的加工重用。這一過程與聯(lián)通主義所支持的“學習即在節(jié)點間建立鏈接”、“知識不斷更新”的思想相呼應(yīng)。為實現(xiàn)這一過程,需要對自適應(yīng)的Web信息抽取技術(shù)進行研究,將半結(jié)構(gòu)化或非結(jié)構(gòu)化的網(wǎng)頁內(nèi)容抽取出結(jié)構(gòu)化的信息。本文將匯聚了名校精品課程的MOOC平臺作為研究對象。在MOOC平臺中,知識以課程為單位存儲在網(wǎng)頁中。本文通過借鑒主流的信息抽取技術(shù),結(jié)合聯(lián)通主義的知識觀與學習觀,進行了自適應(yīng)Web信息抽取研究。研究經(jīng)歷了從課程屬性到課程關(guān)系的抽取過程。首先,本文提出了基于模板與特征相結(jié)合的課程屬性抽取方法。該方法通過計算文本節(jié)點信息熵的方式,挖掘出網(wǎng)站中的公共部分、標識出可選部分,從而生成抽取模板,之后采樣目標抽取信息,結(jié)合與文本內(nèi)容無關(guān)的四類局部文本特征,最終生成針對課程不同屬性的特征向量,通過特征向量對模板抽取結(jié)果進行篩選;其次,本文提出跨網(wǎng)頁的課程關(guān)系抽取方法。在研究中預(yù)設(shè)了課程的三種關(guān)系,針對不同關(guān)系選用不同的課程屬性作為比對數(shù)據(jù)源,并為不同文本類型(描述...
【文章來源】:東北石油大學黑龍江省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
創(chuàng)新點摘要
第一章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究方法
1.4 研究內(nèi)容
1.5 本文組織結(jié)構(gòu)
第二章 背景技術(shù)與理論
2.1 Web信息抽取概述
2.1.1 Web信息抽取發(fā)展現(xiàn)狀
2.1.2 Web信息抽取的主要方法
2.1.3 Web信息抽取評價標準
2.2 聯(lián)通主義學習理論
2.2.1 聯(lián)通主義學習理論發(fā)展現(xiàn)狀
2.2.2 聯(lián)通主義學習理論支撐
2.3 本章小結(jié)
第三章 基于模板與特征相結(jié)合的Web屬性抽取
3.1 引言
3.2 網(wǎng)頁的組成
3.3 自適應(yīng)信息抽取算法模型
3.4 信息抽取準備工作
3.4.1 URL匹配
3.4.2 全網(wǎng)站網(wǎng)頁抽取
3.5 基于文本節(jié)點信息熵計算的模板生成
3.5.1 模板節(jié)點與可選節(jié)點識別
3.5.2 基于序列比對的模板生成方法
3.5.3 自下而上的模板抽取
3.5.4 抽取結(jié)果
3.6 基于特征提取的課程屬性值識別
3.6.1 課程屬性局部特征模型
3.6.2 特征訓練方法
3.6.3 特征的使用
3.6.4 抽取結(jié)果
3.7 本章小結(jié)
第四章 基于MOOC平臺的課程關(guān)系抽取
4.1 引言
4.2 課程實體關(guān)系設(shè)計
4.3 語料獲取
4.3.1 課程名抽取
4.3.2 知識點抽取
4.4 跨網(wǎng)頁關(guān)系抽取
4.4.1 基于實體類屬性文本的課程鏈接
4.4.2 基于描述類屬性文本的課程連接
4.5 課程邏輯關(guān)系抽取
4.6 實驗分析
4.7 本章小結(jié)
第五章 基于MOOC的高等計算機課程知識圖譜設(shè)計與實現(xiàn)
5.1 引言
5.2 數(shù)據(jù)獲取
5.3 課程信息架構(gòu)設(shè)計
5.4 關(guān)系知識組織
5.5 課程關(guān)系抽取
5.6 關(guān)系知識的存儲
5.7 知識內(nèi)容的更新
5.8 知識圖譜的可視化
5.9 本章小結(jié)
結(jié)論
參考文獻
附錄 1 樣本局部特征圖
發(fā)表文章目錄
致謝
【參考文獻】:
期刊論文
[1]一種融合語義角色和依存句法的實體關(guān)系抽取算法[J]. 秦曉慧,侯霞,趙雪. 北京信息科技大學學報(自然科學版). 2019(01)
[2]基于關(guān)聯(lián)主義的成人學習者學習資源設(shè)計策略[J]. 王麗川,崔亮,王志國. 成人教育. 2017(09)
[3]面向機構(gòu)知識庫的課程信息元數(shù)據(jù)抽取系統(tǒng)設(shè)計與實現(xiàn)[J]. 陳雅迪,張雪蕾,李娟. 情報探索. 2017(07)
[4]微博中的開放域事件抽取[J]. 陳簫簫,劉波. 計算機應(yīng)用與軟件. 2016(08)
[5]“互聯(lián)網(wǎng)+”教育環(huán)境下基于聯(lián)通主義理論的移動學習資源設(shè)計研究[J]. 趙書靜,白敏. 教育教學論壇. 2016(28)
[6]基于關(guān)聯(lián)主義的高校開放課程資源平臺設(shè)計[J]. 曹茜,郝超平,徐世東. 中國教育信息化. 2015(09)
[7]聯(lián)通主義學習理論及其最新進展[J]. 王志軍,陳麗. 開放教育研究. 2014(05)
[8]面向中文網(wǎng)絡(luò)百科的屬性和屬性值抽取[J]. 賈真,楊宇飛,何大可,劉勝久,尹紅風. 北京大學學報(自然科學版). 2014(01)
[9]面向非結(jié)構(gòu)化文本的開放式實體屬性抽取[J]. 曾道建,來斯惟,張元哲,劉康,趙軍. 江西師范大學學報(自然科學版). 2013(03)
[10]網(wǎng)頁中商品“屬性—值”關(guān)系的自動抽取方法研究[J]. 唐偉,洪宇,馮艷卉,姚建民,朱巧明. 中文信息學報. 2013(01)
博士論文
[1]精確Web信息抽取關(guān)鍵技術(shù)與系統(tǒng)研究[D]. 施生生.南京大學 2017
[2]面向開放領(lǐng)域文本的實體關(guān)系抽取[D]. 郭喜躍.華中師范大學 2016
[3]關(guān)聯(lián)主義學習理論及其視角下的教與學組織研究[D]. 劉菊.東北師范大學 2011
[4]信息抽取中實體關(guān)系識別研究[D]. 張奇.中國科學技術(shù)大學 2010
[5]信息抽取中關(guān)鍵技術(shù)的研究[D]. 張素香.北京郵電大學 2007
碩士論文
[1]MOOC環(huán)境下課程智能問答系統(tǒng)的設(shè)計與實現(xiàn)[D]. 曲強.延邊大學 2018
[2]基于MOOC的高等教育知識圖譜的構(gòu)建[D]. 侯俊萌.北京郵電大學 2017
[3]自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究[D]. 陳曉雷.遼寧大學 2016
[4]聯(lián)通主義學習理論視角下大學生自主學習能力培養(yǎng)研究[D]. 寧通.鄭州大學 2015
[5]基于信息熵的Web信息抽取技術(shù)研究[D]. 張奇.廣東工業(yè)大學 2013
[6]基于語義角色標注的微博人物關(guān)系抽取[D]. 廉營.哈爾濱工業(yè)大學 2013
[7]精確Web信息抽取集成模型與關(guān)鍵技術(shù)研究[D]. 解濤.南京大學 2011
[8]基于最大熵方法的評論信息抽取研究[D]. 趙麗芳.上海交通大學 2009
[9]信息化教育領(lǐng)域的Web信息抽取技術(shù)研究[D]. 邱亞娜.天津師范大學 2008
[10]Web教學資源抽取技術(shù)及其應(yīng)用研究[D]. 劉洋.東北師范大學 2007
本文編號:3206827
【文章來源】:東北石油大學黑龍江省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
創(chuàng)新點摘要
第一章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究方法
1.4 研究內(nèi)容
1.5 本文組織結(jié)構(gòu)
第二章 背景技術(shù)與理論
2.1 Web信息抽取概述
2.1.1 Web信息抽取發(fā)展現(xiàn)狀
2.1.2 Web信息抽取的主要方法
2.1.3 Web信息抽取評價標準
2.2 聯(lián)通主義學習理論
2.2.1 聯(lián)通主義學習理論發(fā)展現(xiàn)狀
2.2.2 聯(lián)通主義學習理論支撐
2.3 本章小結(jié)
第三章 基于模板與特征相結(jié)合的Web屬性抽取
3.1 引言
3.2 網(wǎng)頁的組成
3.3 自適應(yīng)信息抽取算法模型
3.4 信息抽取準備工作
3.4.1 URL匹配
3.4.2 全網(wǎng)站網(wǎng)頁抽取
3.5 基于文本節(jié)點信息熵計算的模板生成
3.5.1 模板節(jié)點與可選節(jié)點識別
3.5.2 基于序列比對的模板生成方法
3.5.3 自下而上的模板抽取
3.5.4 抽取結(jié)果
3.6 基于特征提取的課程屬性值識別
3.6.1 課程屬性局部特征模型
3.6.2 特征訓練方法
3.6.3 特征的使用
3.6.4 抽取結(jié)果
3.7 本章小結(jié)
第四章 基于MOOC平臺的課程關(guān)系抽取
4.1 引言
4.2 課程實體關(guān)系設(shè)計
4.3 語料獲取
4.3.1 課程名抽取
4.3.2 知識點抽取
4.4 跨網(wǎng)頁關(guān)系抽取
4.4.1 基于實體類屬性文本的課程鏈接
4.4.2 基于描述類屬性文本的課程連接
4.5 課程邏輯關(guān)系抽取
4.6 實驗分析
4.7 本章小結(jié)
第五章 基于MOOC的高等計算機課程知識圖譜設(shè)計與實現(xiàn)
5.1 引言
5.2 數(shù)據(jù)獲取
5.3 課程信息架構(gòu)設(shè)計
5.4 關(guān)系知識組織
5.5 課程關(guān)系抽取
5.6 關(guān)系知識的存儲
5.7 知識內(nèi)容的更新
5.8 知識圖譜的可視化
5.9 本章小結(jié)
結(jié)論
參考文獻
附錄 1 樣本局部特征圖
發(fā)表文章目錄
致謝
【參考文獻】:
期刊論文
[1]一種融合語義角色和依存句法的實體關(guān)系抽取算法[J]. 秦曉慧,侯霞,趙雪. 北京信息科技大學學報(自然科學版). 2019(01)
[2]基于關(guān)聯(lián)主義的成人學習者學習資源設(shè)計策略[J]. 王麗川,崔亮,王志國. 成人教育. 2017(09)
[3]面向機構(gòu)知識庫的課程信息元數(shù)據(jù)抽取系統(tǒng)設(shè)計與實現(xiàn)[J]. 陳雅迪,張雪蕾,李娟. 情報探索. 2017(07)
[4]微博中的開放域事件抽取[J]. 陳簫簫,劉波. 計算機應(yīng)用與軟件. 2016(08)
[5]“互聯(lián)網(wǎng)+”教育環(huán)境下基于聯(lián)通主義理論的移動學習資源設(shè)計研究[J]. 趙書靜,白敏. 教育教學論壇. 2016(28)
[6]基于關(guān)聯(lián)主義的高校開放課程資源平臺設(shè)計[J]. 曹茜,郝超平,徐世東. 中國教育信息化. 2015(09)
[7]聯(lián)通主義學習理論及其最新進展[J]. 王志軍,陳麗. 開放教育研究. 2014(05)
[8]面向中文網(wǎng)絡(luò)百科的屬性和屬性值抽取[J]. 賈真,楊宇飛,何大可,劉勝久,尹紅風. 北京大學學報(自然科學版). 2014(01)
[9]面向非結(jié)構(gòu)化文本的開放式實體屬性抽取[J]. 曾道建,來斯惟,張元哲,劉康,趙軍. 江西師范大學學報(自然科學版). 2013(03)
[10]網(wǎng)頁中商品“屬性—值”關(guān)系的自動抽取方法研究[J]. 唐偉,洪宇,馮艷卉,姚建民,朱巧明. 中文信息學報. 2013(01)
博士論文
[1]精確Web信息抽取關(guān)鍵技術(shù)與系統(tǒng)研究[D]. 施生生.南京大學 2017
[2]面向開放領(lǐng)域文本的實體關(guān)系抽取[D]. 郭喜躍.華中師范大學 2016
[3]關(guān)聯(lián)主義學習理論及其視角下的教與學組織研究[D]. 劉菊.東北師范大學 2011
[4]信息抽取中實體關(guān)系識別研究[D]. 張奇.中國科學技術(shù)大學 2010
[5]信息抽取中關(guān)鍵技術(shù)的研究[D]. 張素香.北京郵電大學 2007
碩士論文
[1]MOOC環(huán)境下課程智能問答系統(tǒng)的設(shè)計與實現(xiàn)[D]. 曲強.延邊大學 2018
[2]基于MOOC的高等教育知識圖譜的構(gòu)建[D]. 侯俊萌.北京郵電大學 2017
[3]自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究[D]. 陳曉雷.遼寧大學 2016
[4]聯(lián)通主義學習理論視角下大學生自主學習能力培養(yǎng)研究[D]. 寧通.鄭州大學 2015
[5]基于信息熵的Web信息抽取技術(shù)研究[D]. 張奇.廣東工業(yè)大學 2013
[6]基于語義角色標注的微博人物關(guān)系抽取[D]. 廉營.哈爾濱工業(yè)大學 2013
[7]精確Web信息抽取集成模型與關(guān)鍵技術(shù)研究[D]. 解濤.南京大學 2011
[8]基于最大熵方法的評論信息抽取研究[D]. 趙麗芳.上海交通大學 2009
[9]信息化教育領(lǐng)域的Web信息抽取技術(shù)研究[D]. 邱亞娜.天津師范大學 2008
[10]Web教學資源抽取技術(shù)及其應(yīng)用研究[D]. 劉洋.東北師范大學 2007
本文編號:3206827
本文鏈接:http://www.sikaile.net/jiaoyulunwen/ktjx/3206827.html
教材專著