文本挖掘技術(shù)的研究及其在教學(xué)平臺中的應(yīng)用
本文關(guān)鍵詞:文本挖掘技術(shù)的研究及其在教學(xué)平臺中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:文本挖掘的任務(wù)是發(fā)現(xiàn)文本的內(nèi)容特征,研究技術(shù)涉及自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等學(xué)科,目前該技術(shù)已經(jīng)廣泛應(yīng)用在各個領(lǐng)域。在網(wǎng)絡(luò)教學(xué)平臺中存放著大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),可以將文本挖掘技術(shù)引入到教學(xué)平臺中來有效管理這些零散的數(shù)據(jù)。本研究的目的就是深入學(xué)習(xí)文本挖掘技術(shù)并與實際的應(yīng)用需求相結(jié)合,在教學(xué)平臺中實現(xiàn)主觀題的自動批改功能。 本文首先分別對文本挖掘技術(shù)和主觀題自動評分的國內(nèi)外研究現(xiàn)狀做了介紹,并認(rèn)真研究了涉及到的中文分詞、文本相似度計算和文本分類技術(shù)。隨后,模擬教師評閱主觀題的思維,引入模糊數(shù)學(xué)理論中的單向貼近度模型實現(xiàn)了簡答題的自動評分,通過計算學(xué)生答案與標(biāo)準(zhǔn)答案的各個關(guān)鍵字的貼近度來衡量學(xué)生答案的正確性,簡答題答案短小精悍,重點在于與關(guān)鍵字的匹配。但論述題的文本內(nèi)容較多,就會更多地受到漢語語義復(fù)雜性以及同義詞、近義詞等的影響,故本文針對這類題型設(shè)計了基于文本語義相似度的計算方法,通過《知網(wǎng)》計算詞語的語義相似度,進(jìn)而構(gòu)造文本相似度矩陣模型和由此形成的最大值序列逐層計算句子、段落,直至文本的語義相似度。針對KNN算法應(yīng)用在主觀題自動評分領(lǐng)域中,可能會出現(xiàn)的類別樣本數(shù)量差異大和文本密度不均衡兩種情況,本文提出了用修正權(quán)重因子來給K個最近鄰打分的方法,旨在降低上述兩種情況對打分的影響。最后,將上述算法做了實驗驗證,并在思源教學(xué)平臺的作業(yè)管理模塊實現(xiàn)了針對簡答題和論述題的自動評分功能。
【關(guān)鍵詞】:文本挖掘 主觀題自動批改 單向貼近度 語義相似度 修正權(quán)重因子
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1;G434
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-11
- 1 緒論11-17
- 1.1 論文的研究背景及選題意義11-13
- 1.2 國內(nèi)外研究現(xiàn)狀13-15
- 1.2.1 文本挖掘技術(shù)研究現(xiàn)狀14
- 1.2.2 主觀題自動評分系統(tǒng)研究現(xiàn)狀14-15
- 1.3 論文主要工作15
- 1.4 論文結(jié)構(gòu)安排15-17
- 2 主觀題自動評分關(guān)鍵技術(shù)研究17-32
- 2.1 中文分詞技術(shù)18-21
- 2.1.1 基于詞典的分詞方法18-19
- 2.1.2 基于統(tǒng)計的分詞方法19-20
- 2.1.3 基于理解的分詞方法20
- 2.1.4 中文分詞開源項目20-21
- 2.2 文本相似度計算21-26
- 2.2.1 基于向量空間模型的計算方法21-24
- 2.2.2 基于漢明距離的計算方法24-25
- 2.2.3 基于語義理解的計算方法25-26
- 2.3 文本分類26-32
- 2.3.1 訓(xùn)練模塊27-30
- 2.3.2 測試和性能評估模塊30-32
- 3 基于單向貼近度的簡答題自動評分算法研究32-38
- 3.1 簡答題特點及閱卷流程32
- 3.2 模糊數(shù)學(xué)理論32-34
- 3.2.1 模糊數(shù)學(xué)概述33-34
- 3.2.2 模糊數(shù)學(xué)的應(yīng)用34
- 3.3 單向貼近度算法應(yīng)用34-38
- 3.3.1 單向貼近度的定義34-35
- 3.3.2 單向貼近度的計算35
- 3.3.3 主觀題評分公式35-36
- 3.3.4 算法舉例36-37
- 3.3.5 算法特點總結(jié)37-38
- 4 基于文本語義相似度的論述題自動評分算法研究38-50
- 4.1 論述題特點及閱卷方法38
- 4.2 詞語語義相似度計算38-45
- 4.2.1 語義相似度與語義距離38-40
- 4.2.2 關(guān)于《知網(wǎng)》40-41
- 4.2.3 根據(jù)《知網(wǎng)》計算詞語語義相似度41-45
- 4.3 句子、段落和文本的語義相似度計算45-50
- 5 KNN算法改進(jìn)及實驗結(jié)果分析50-57
- 5.1 KNN算法在主觀題自動評分的應(yīng)用50-51
- 5.2 KNN算法原理及其改進(jìn)51-54
- 5.2.1 類別樣本數(shù)量差異51-53
- 5.2.2 樣本分布密度不均衡53-54
- 5.3 實驗與結(jié)果分析54-57
- 5.3.1 實驗數(shù)據(jù)集54
- 5.3.2 性能評價指標(biāo)54-55
- 5.3.3 實驗工具與方法55
- 5.3.4 實驗結(jié)果分析55-57
- 6 算法實現(xiàn)及實驗結(jié)果分析57-67
- 6.1 功能設(shè)計57-58
- 6.1.1 功能設(shè)計基本原則57
- 6.1.2 功能設(shè)計思想57-58
- 6.1.3 功能設(shè)計內(nèi)容58
- 6.2 開發(fā)環(huán)境58
- 6.3 功能實現(xiàn)58-61
- 6.3.1 關(guān)鍵步驟的實現(xiàn)59-60
- 6.3.2 功能展示60-61
- 6.4 實驗結(jié)果分析61-67
- 6.4.1 實驗數(shù)據(jù)選取61-62
- 6.4.2 實驗評價指標(biāo)62-63
- 6.4.3 實驗結(jié)果分析63-67
- 7 總結(jié)與展望67-69
- 參考文獻(xiàn)69-72
- 附錄A72-74
- 作者簡歷74-76
- 學(xué)位論文數(shù)據(jù)集76
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學(xué)學(xué)報;2005年02期
2 葉福軍;;文本數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用研究[J];硅谷;2009年07期
3 張量,詹國華;開放式、智能化計算機(jī)考核閱卷系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2001年10期
4 張煥炯,王國勝,鐘義信;基于漢明距離的文本相似度計算[J];計算機(jī)工程與應(yīng)用;2001年19期
5 高思丹,袁春風(fēng);語句相似度計算在主觀題自動批改技術(shù)中的初步應(yīng)用[J];計算機(jī)工程與應(yīng)用;2004年14期
6 劉遷;賈惠波;;中文信息處理中自動分詞技術(shù)的研究與展望[J];計算機(jī)工程與應(yīng)用;2006年03期
7 王自強(qiáng);錢旭;;基于流形學(xué)習(xí)和SVM的Web文檔分類算法[J];計算機(jī)工程;2009年15期
8 楊延嬌;王治和;;基于樹樁網(wǎng)絡(luò)的貝葉斯文本分類算法[J];計算機(jī)工程;2009年16期
9 孫榮宗;苗奪謙;衛(wèi)志華;李文;;基于粗糙集的快速KNN文本分類算法[J];計算機(jī)工程;2010年24期
10 朱巧明,陳越,翟潔,趙星濤;一個自動閱卷系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程與科學(xué);1999年03期
本文關(guān)鍵詞:文本挖掘技術(shù)的研究及其在教學(xué)平臺中的應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號:331612
本文鏈接:http://www.sikaile.net/jiaoyulunwen/jiaoyujiaoxuefangfalunwen/331612.html