信息抽取技術在移動學習資源建設中的應用研究
發(fā)布時間:2022-01-11 22:37
在網(wǎng)絡教學資源極為豐富的今天,從網(wǎng)頁中自動抽取多媒體類及文本類教學資源切片,建立移動學習資源庫,既充分提高了現(xiàn)有資源的利用率,也為現(xiàn)有電子書包等移動學習終端提供了豐富的資源來源。文章結(jié)合移動學習微內(nèi)容設計要求,根據(jù)多媒體HTML標簽特點,及文本類資源遞歸表達特征,提出了基于信息抽取的移動學習資源片段自動抽取的技術方案,該方案可以實時自動地從Web頁面中抽取圖片、音視頻等多媒體資源切片及填空、選擇題等移動學習資源切片。實驗結(jié)果表明,方案整體準確率達85.4%,召回率達79.0%,時間性能上,可以在113.9小時內(nèi)獲取186,133個移動學習資源切片。該自動化的移動學習資源抽取技術方案具有較高的實用性,也是現(xiàn)有大數(shù)據(jù)技術在資源建設方面的應用之一。
【文章來源】:電化教育研究. 2018,39(03)北大核心CSSCI
【文章頁數(shù)】:7 頁
【部分圖文】:
Web 教學資源微型化技術方案
?2.多媒體資源抽取課件、圖片、音頻、視頻等資源在文件實體上相對獨立,所以可以直接根據(jù)其在網(wǎng)頁HTML源碼中的標簽、屬性等,利用相應的正則表達式進行抽取,非文本類多媒體資源相應的HTML5標簽與屬性特征見表1。早期版本的HTML4標簽、屬性與此類似,這里不再贅述。表1非文本類切片資源抽取標簽與表1相對應的HTML多媒體標簽的模式匹配,可以用正則表達式來表示,見表2。表2基于正則表達式的多媒體資源抽取方法舉例(三)長文本分割行業(yè)文檔都有其規(guī)律性特征,該特征可以概括為用戶的遞歸行為模式[23],如圖2所示。圖2用戶的遞歸行為模式教案(知識點,知識目標,情感目標,過程與方法,教學重難點,教學內(nèi)容,來源站點……)填空(知識點,題干,答案,來源站點……)選擇題(知識點,題干,選項A,選項B,選項C,選項D,來源站點……)文獻(知識點,正文,來源站點……)(2)資源類型抽取規(guī)則標簽屬性HTML源碼舉例課件ppt、swf、gsp等類型超級鏈接ahref、alt<ahref='./uploads/temp-late/sibianxing-bianhua.gsp'>幾何畫板演示平行四邊形的變化</a>圖片img類標簽src所指向圖片網(wǎng)址imgsrc、alt<imgalt="荷塘月色圖片"src="/pic/lotus.jpg"/>音頻音頻標簽audiosrc、title<audiosrc="/i/horse.wav"controls="controls"Title="Horse">視頻視頻標簽videosrc、title<videosrc="/i/bear.ogg"controls="controls"title="bear">正則表達式說明匹配內(nèi)容<h1.*?</h1>網(wǎng)頁中標題,如:<h1>教育資源</h1><.+?>HTML標簽,如:<img>、<audio>、<video>等標簽(href|src)\s*=\s*[“’][^”’#]+[“’]網(wǎng)頁中的超鏈接,如:href=“http://baidu.com”92
蟹指、微型?腦歟??⒎岣壞囊貧??習資源庫。實驗方案既要驗證各環(huán)節(jié)算法的可靠性,還需對方案的數(shù)據(jù)采集性能和資源切片、提取的整體性能進行分析,具體包括數(shù)據(jù)采集、網(wǎng)頁解析與多媒體資源提取和文本類資源分割、微型化的時間性能,以及相應的準確率和召回率。(一)實驗環(huán)境研究中,實驗硬件環(huán)境是8臺PC機建立的Hadoop大數(shù)據(jù)集群,PC的配置是Core22.53GHzCPU+4GB內(nèi)存,其中1臺配置為NameNode,另外7臺配置為DataNode,DataNode同時承擔HBase非結(jié)構化數(shù)據(jù)存儲和Map/Reduce分布式數(shù)據(jù)處理任務,軟件環(huán)境架構如圖3所示。圖3中,DataNode承擔基礎教育資源網(wǎng)站表層數(shù)據(jù)采集、網(wǎng)頁解析與多媒體資源提娶文本資源切片等任務。數(shù)據(jù)采集工具是在Nutch開源工具基礎上,結(jié)合主題相關度計算進行了二次開發(fā),該工具采用插件的方式解決了JavaScript腳本解析和AJAX動態(tài)腳本問題,與Map/Reduce分布式計算可以很好地集成為一體。圖3實驗軟件環(huán)境(二)實驗結(jié)果實驗種子網(wǎng)站是全國31個盛自治區(qū)、直轄市教育廳(委員會)網(wǎng)站,不包括香港、澳門、臺灣。經(jīng)過廣度優(yōu)先搜索,共提取出基礎教育資源相關網(wǎng)站28756個,如:查字典語文網(wǎng)(https://yuwen.chazidian.com)、當知備課網(wǎng)(http://beike.dangzhi.com)、7C教育資源網(wǎng)(http://www.7cxk.net)等。再從這些基礎教育資源網(wǎng)站進行深度優(yōu)先搜索,得到53,186,246個URL,經(jīng)過主題(主題詞共21660個詞條[16],包括Fd、Fm、Ff等特征詞條)相關性過濾,與基礎教育資源直接相關的URL共有354,679個,并在此基礎上,從網(wǎng)頁中抽取多媒體資源和文本類教學資源進行分割后,得到的資源片段總數(shù)為186,133個,累計用時113.9(78.5+35.4)小時(約4.7天),通過開放測試和封閉測試,得到的實驗結(jié)果見?
【參考文獻】:
期刊論文
[1]基于Heritrix與Lucene的地震專業(yè)搜索引擎設計[J]. 孫靜,李亞龍,萬杰. 地震地磁觀測與研究. 2016(05)
[2]基于Heritrix的視頻垂直搜索引擎[J]. 張林. 計算機系統(tǒng)應用. 2016(09)
[3]基于知識庫和主題爬蟲的南海輿情實時監(jiān)測研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬. 情報雜志. 2016(05)
[4]電子課本與電子書包標準規(guī)范、關鍵技術及應用創(chuàng)新的研究[J]. 吳永和,何超,楊瑛,馬曉玲,余云濤,劉曉丹,祝智庭. 華東師范大學學報(自然科學版). 2014(02)
[5]模糊規(guī)則算法在教育信息分類中的應用[J]. 梁文超,徐朝軍,沈書生. 現(xiàn)代圖書情報技術. 2011(01)
[6]微型學習理論指導下移動學習材料設計的研究[J]. 穆肅,閆振中. 現(xiàn)代遠距離教育. 2010(02)
[7]基于分塊和統(tǒng)計相結(jié)合的新聞正文抽取[J]. 李烯,徐朝軍. 情報理論與實踐. 2010(01)
[8]網(wǎng)絡課程資源自動量化評價研究[J]. 王滿,徐朝軍. 現(xiàn)代圖書情報技術. 2010(01)
[9]Edupage:一個基于本體的基礎教育網(wǎng)站搜索引擎[J]. 曹卓文,楊曉江. 中國遠程教育. 2008(05)
[10]基于微格式的信息組織與處理框架[J]. 李書寧. 圖書情報工作. 2007(08)
本文編號:3583573
【文章來源】:電化教育研究. 2018,39(03)北大核心CSSCI
【文章頁數(shù)】:7 頁
【部分圖文】:
Web 教學資源微型化技術方案
?2.多媒體資源抽取課件、圖片、音頻、視頻等資源在文件實體上相對獨立,所以可以直接根據(jù)其在網(wǎng)頁HTML源碼中的標簽、屬性等,利用相應的正則表達式進行抽取,非文本類多媒體資源相應的HTML5標簽與屬性特征見表1。早期版本的HTML4標簽、屬性與此類似,這里不再贅述。表1非文本類切片資源抽取標簽與表1相對應的HTML多媒體標簽的模式匹配,可以用正則表達式來表示,見表2。表2基于正則表達式的多媒體資源抽取方法舉例(三)長文本分割行業(yè)文檔都有其規(guī)律性特征,該特征可以概括為用戶的遞歸行為模式[23],如圖2所示。圖2用戶的遞歸行為模式教案(知識點,知識目標,情感目標,過程與方法,教學重難點,教學內(nèi)容,來源站點……)填空(知識點,題干,答案,來源站點……)選擇題(知識點,題干,選項A,選項B,選項C,選項D,來源站點……)文獻(知識點,正文,來源站點……)(2)資源類型抽取規(guī)則標簽屬性HTML源碼舉例課件ppt、swf、gsp等類型超級鏈接ahref、alt<ahref='./uploads/temp-late/sibianxing-bianhua.gsp'>幾何畫板演示平行四邊形的變化</a>圖片img類標簽src所指向圖片網(wǎng)址imgsrc、alt<imgalt="荷塘月色圖片"src="/pic/lotus.jpg"/>音頻音頻標簽audiosrc、title<audiosrc="/i/horse.wav"controls="controls"Title="Horse">視頻視頻標簽videosrc、title<videosrc="/i/bear.ogg"controls="controls"title="bear">正則表達式說明匹配內(nèi)容<h1.*?</h1>網(wǎng)頁中標題,如:<h1>教育資源</h1><.+?>HTML標簽,如:<img>、<audio>、<video>等標簽(href|src)\s*=\s*[“’][^”’#]+[“’]網(wǎng)頁中的超鏈接,如:href=“http://baidu.com”92
蟹指、微型?腦歟??⒎岣壞囊貧??習資源庫。實驗方案既要驗證各環(huán)節(jié)算法的可靠性,還需對方案的數(shù)據(jù)采集性能和資源切片、提取的整體性能進行分析,具體包括數(shù)據(jù)采集、網(wǎng)頁解析與多媒體資源提取和文本類資源分割、微型化的時間性能,以及相應的準確率和召回率。(一)實驗環(huán)境研究中,實驗硬件環(huán)境是8臺PC機建立的Hadoop大數(shù)據(jù)集群,PC的配置是Core22.53GHzCPU+4GB內(nèi)存,其中1臺配置為NameNode,另外7臺配置為DataNode,DataNode同時承擔HBase非結(jié)構化數(shù)據(jù)存儲和Map/Reduce分布式數(shù)據(jù)處理任務,軟件環(huán)境架構如圖3所示。圖3中,DataNode承擔基礎教育資源網(wǎng)站表層數(shù)據(jù)采集、網(wǎng)頁解析與多媒體資源提娶文本資源切片等任務。數(shù)據(jù)采集工具是在Nutch開源工具基礎上,結(jié)合主題相關度計算進行了二次開發(fā),該工具采用插件的方式解決了JavaScript腳本解析和AJAX動態(tài)腳本問題,與Map/Reduce分布式計算可以很好地集成為一體。圖3實驗軟件環(huán)境(二)實驗結(jié)果實驗種子網(wǎng)站是全國31個盛自治區(qū)、直轄市教育廳(委員會)網(wǎng)站,不包括香港、澳門、臺灣。經(jīng)過廣度優(yōu)先搜索,共提取出基礎教育資源相關網(wǎng)站28756個,如:查字典語文網(wǎng)(https://yuwen.chazidian.com)、當知備課網(wǎng)(http://beike.dangzhi.com)、7C教育資源網(wǎng)(http://www.7cxk.net)等。再從這些基礎教育資源網(wǎng)站進行深度優(yōu)先搜索,得到53,186,246個URL,經(jīng)過主題(主題詞共21660個詞條[16],包括Fd、Fm、Ff等特征詞條)相關性過濾,與基礎教育資源直接相關的URL共有354,679個,并在此基礎上,從網(wǎng)頁中抽取多媒體資源和文本類教學資源進行分割后,得到的資源片段總數(shù)為186,133個,累計用時113.9(78.5+35.4)小時(約4.7天),通過開放測試和封閉測試,得到的實驗結(jié)果見?
【參考文獻】:
期刊論文
[1]基于Heritrix與Lucene的地震專業(yè)搜索引擎設計[J]. 孫靜,李亞龍,萬杰. 地震地磁觀測與研究. 2016(05)
[2]基于Heritrix的視頻垂直搜索引擎[J]. 張林. 計算機系統(tǒng)應用. 2016(09)
[3]基于知識庫和主題爬蟲的南海輿情實時監(jiān)測研究[J]. 丁晟春,龔思蘭,周文杰,王曰芬. 情報雜志. 2016(05)
[4]電子課本與電子書包標準規(guī)范、關鍵技術及應用創(chuàng)新的研究[J]. 吳永和,何超,楊瑛,馬曉玲,余云濤,劉曉丹,祝智庭. 華東師范大學學報(自然科學版). 2014(02)
[5]模糊規(guī)則算法在教育信息分類中的應用[J]. 梁文超,徐朝軍,沈書生. 現(xiàn)代圖書情報技術. 2011(01)
[6]微型學習理論指導下移動學習材料設計的研究[J]. 穆肅,閆振中. 現(xiàn)代遠距離教育. 2010(02)
[7]基于分塊和統(tǒng)計相結(jié)合的新聞正文抽取[J]. 李烯,徐朝軍. 情報理論與實踐. 2010(01)
[8]網(wǎng)絡課程資源自動量化評價研究[J]. 王滿,徐朝軍. 現(xiàn)代圖書情報技術. 2010(01)
[9]Edupage:一個基于本體的基礎教育網(wǎng)站搜索引擎[J]. 曹卓文,楊曉江. 中國遠程教育. 2008(05)
[10]基于微格式的信息組織與處理框架[J]. 李書寧. 圖書情報工作. 2007(08)
本文編號:3583573
本文鏈接:http://www.sikaile.net/jiaoyulunwen/xuekejiaoyulunwen/3583573.html