文本挖掘技術(shù)的研究及其在教學(xué)平臺中的應(yīng)用

發(fā)布時間：2017-04-27 23:08

本文關(guān)鍵詞：文本挖掘技術(shù)的研究及其在教學(xué)平臺中的應(yīng)用，由筆耕文化傳播整理發(fā)布。

【摘要】：文本挖掘的任務(wù)是發(fā)現(xiàn)文本的內(nèi)容特征,研究技術(shù)涉及自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等學(xué)科,目前該技術(shù)已經(jīng)廣泛應(yīng)用在各個領(lǐng)域。在網(wǎng)絡(luò)教學(xué)平臺中存放著大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),可以將文本挖掘技術(shù)引入到教學(xué)平臺中來有效管理這些零散的數(shù)據(jù)。本研究的目的就是深入學(xué)習(xí)文本挖掘技術(shù)并與實際的應(yīng)用需求相結(jié)合,在教學(xué)平臺中實現(xiàn)主觀題的自動批改功能。本文首先分別對文本挖掘技術(shù)和主觀題自動評分的國內(nèi)外研究現(xiàn)狀做了介紹,并認(rèn)真研究了涉及到的中文分詞、文本相似度計算和文本分類技術(shù)。隨后,模擬教師評閱主觀題的思維,引入模糊數(shù)學(xué)理論中的單向貼近度模型實現(xiàn)了簡答題的自動評分,通過計算學(xué)生答案與標(biāo)準(zhǔn)答案的各個關(guān)鍵字的貼近度來衡量學(xué)生答案的正確性,簡答題答案短小精悍,重點在于與關(guān)鍵字的匹配。但論述題的文本內(nèi)容較多,就會更多地受到漢語語義復(fù)雜性以及同義詞、近義詞等的影響,故本文針對這類題型設(shè)計了基于文本語義相似度的計算方法,通過《知網(wǎng)》計算詞語的語義相似度,進(jìn)而構(gòu)造文本相似度矩陣模型和由此形成的最大值序列逐層計算句子、段落,直至文本的語義相似度。針對KNN算法應(yīng)用在主觀題自動評分領(lǐng)域中,可能會出現(xiàn)的類別樣本數(shù)量差異大和文本密度不均衡兩種情況,本文提出了用修正權(quán)重因子來給K個最近鄰打分的方法,旨在降低上述兩種情況對打分的影響。最后,將上述算法做了實驗驗證,并在思源教學(xué)平臺的作業(yè)管理模塊實現(xiàn)了針對簡答題和論述題的自動評分功能。
【關(guān)鍵詞】：文本挖掘 主觀題自動批改 單向貼近度 語義相似度 修正權(quán)重因子
【學(xué)位授予單位】：北京交通大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP391.1;G434
【目錄】：

致謝5-6
摘要6-7
ABSTRACT7-11
1 緒論11-17
1.1 論文的研究背景及選題意義11-13
1.2 國內(nèi)外研究現(xiàn)狀13-15
1.2.1 文本挖掘技術(shù)研究現(xiàn)狀14
1.2.2 主觀題自動評分系統(tǒng)研究現(xiàn)狀14-15
1.3 論文主要工作15
1.4 論文結(jié)構(gòu)安排15-17
2 主觀題自動評分關(guān)鍵技術(shù)研究17-32
2.1 中文分詞技術(shù)18-21
2.1.1 基于詞典的分詞方法18-19
2.1.2 基于統(tǒng)計的分詞方法19-20
2.1.3 基于理解的分詞方法20
2.1.4 中文分詞開源項目20-21
2.2 文本相似度計算21-26
2.2.1 基于向量空間模型的計算方法21-24
2.2.2 基于漢明距離的計算方法24-25
2.2.3 基于語義理解的計算方法25-26
2.3 文本分類26-32
2.3.1 訓(xùn)練模塊27-30
2.3.2 測試和性能評估模塊30-32
3 基于單向貼近度的簡答題自動評分算法研究32-38
3.1 簡答題特點及閱卷流程32
3.2 模糊數(shù)學(xué)理論32-34
3.2.1 模糊數(shù)學(xué)概述33-34
3.2.2 模糊數(shù)學(xué)的應(yīng)用34
3.3 單向貼近度算法應(yīng)用34-38
3.3.1 單向貼近度的定義34-35
3.3.2 單向貼近度的計算35
3.3.3 主觀題評分公式35-36
3.3.4 算法舉例36-37
3.3.5 算法特點總結(jié)37-38
4 基于文本語義相似度的論述題自動評分算法研究38-50
4.1 論述題特點及閱卷方法38
4.2 詞語語義相似度計算38-45
4.2.1 語義相似度與語義距離38-40
4.2.2 關(guān)于《知網(wǎng)》40-41
4.2.3 根據(jù)《知網(wǎng)》計算詞語語義相似度41-45
4.3 句子、段落和文本的語義相似度計算45-50
5 KNN算法改進(jìn)及實驗結(jié)果分析50-57
5.1 KNN算法在主觀題自動評分的應(yīng)用50-51
5.2 KNN算法原理及其改進(jìn)51-54
5.2.1 類別樣本數(shù)量差異51-53
5.2.2 樣本分布密度不均衡53-54
5.3 實驗與結(jié)果分析54-57
5.3.1 實驗數(shù)據(jù)集54
5.3.2 性能評價指標(biāo)54-55
5.3.3 實驗工具與方法55
5.3.4 實驗結(jié)果分析55-57
6 算法實現(xiàn)及實驗結(jié)果分析57-67
6.1 功能設(shè)計57-58
6.1.1 功能設(shè)計基本原則57
6.1.2 功能設(shè)計思想57-58
6.1.3 功能設(shè)計內(nèi)容58
6.2 開發(fā)環(huán)境58
6.3 功能實現(xiàn)58-61
6.3.1 關(guān)鍵步驟的實現(xiàn)59-60
6.3.2 功能展示60-61
6.4 實驗結(jié)果分析61-67
6.4.1 實驗數(shù)據(jù)選取61-62
6.4.2 實驗評價指標(biāo)62-63
6.4.3 實驗結(jié)果分析63-67
7 總結(jié)與展望67-69
參考文獻(xiàn)69-72
附錄A72-74
作者簡歷74-76
學(xué)位論文數(shù)據(jù)集76

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學(xué)學(xué)報;2005年02期

2 葉福軍;;文本數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用研究[J];硅谷;2009年07期

3 張量,詹國華;開放式、智能化計算機(jī)考核閱卷系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2001年10期

4 張煥炯,王國勝,鐘義信;基于漢明距離的文本相似度計算[J];計算機(jī)工程與應(yīng)用;2001年19期

5 高思丹,袁春風(fēng);語句相似度計算在主觀題自動批改技術(shù)中的初步應(yīng)用[J];計算機(jī)工程與應(yīng)用;2004年14期

6 劉遷;賈惠波;;中文信息處理中自動分詞技術(shù)的研究與展望[J];計算機(jī)工程與應(yīng)用;2006年03期

7 王自強(qiáng);錢旭;;基于流形學(xué)習(xí)和SVM的Web文檔分類算法[J];計算機(jī)工程;2009年15期

8 楊延嬌;王治和;;基于樹樁網(wǎng)絡(luò)的貝葉斯文本分類算法[J];計算機(jī)工程;2009年16期

9 孫榮宗;苗奪謙;衛(wèi)志華;李文;;基于粗糙集的快速KNN文本分類算法[J];計算機(jī)工程;2010年24期

10 朱巧明,陳越,翟潔,趙星濤;一個自動閱卷系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機(jī)工程與科學(xué);1999年03期

本文關(guān)鍵詞：文本挖掘技術(shù)的研究及其在教學(xué)平臺中的應(yīng)用，，由筆耕文化傳播整理發(fā)布。

本文編號：331612

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/jiaoyulunwen/jiaoyujiaoxuefangfalunwen/331612.html

上一篇：心理契約、工作滿意度與高校教師職業(yè)倦怠的關(guān)系研究
下一篇：越南北部貧困山區(qū)義務(wù)教育政策實施分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本挖掘技術(shù)的研究及其在教學(xué)平臺中的應(yīng)用