課程評論的情感傾向識別與話題挖掘技術研究
本文關鍵詞:課程評論的情感傾向識別與話題挖掘技術研究
更多相關文章: 課程評論 情感傾向識別 特征提取 多視圖半監(jiān)督學習 話題挖掘
【摘要】:近年來,教育領域涌現(xiàn)出了很多開放式互動學習平臺,它們提供了豐富的互動內(nèi)容,其中包括學習者對課程的評論。這些評論數(shù)據(jù)記錄了學習群體在學習上遇到的困難,以及對課程資源和教學者的意見,這些意見信息在協(xié)助用戶選課、改善教學質量和平臺支持等方而均具有較大的價值。但是,大量課程評論所形成的反饋信息目前并未被有效利用。如何利用學習者的反饋信息為教學決策提供支持已成為研究者們思考的現(xiàn)實問題。因此迫切需要一套有效的方法,能對大量課程評論數(shù)據(jù)進行挖掘,從而為分析者提供直觀、精確和有效的信息。 本文旨在研究面向課程評論的情感傾向識別與話題挖掘技術,目的是希望將該技術應用于學習行為分析以及在線學習資源評價等方面,實現(xiàn)信息技術與教育的深度融合。本文以課程評論文本中蘊含的情感信息作為切入點,針對真實網(wǎng)絡環(huán)境中文本數(shù)據(jù)的特征高維性、情感識別中訓練數(shù)據(jù)標注的高代價性、潛在話題提取的不確定性問題,提出了“數(shù)據(jù)采集——文本特征提取——半監(jiān)督情感識別——話題情感挖掘”的技術路線。根據(jù)該技術路線,我們首先對評論樣本進行降維,并利用提取的特征集頻率值來表示實驗樣本;然后采用一種半監(jiān)督學習方法對含有大量無標記樣本的訓練集進行機器學習,并對構建的情感識別模型進行有效性驗證;最后利用情感識別模型獲取話題挖掘中待測樣本的情感標簽,在此基礎上對所有待測樣本集進行話題情感建模,提取出隱含的話題—情感分布信息,并將該模型分別用于課程單元和學習者個體的關鍵話題情感信息挖掘。本文得到了國家社會科學基金“面向高校青年網(wǎng)絡行為的情感識別關鍵技術研究”(14BGL131)與國家科技支撐計劃項目“網(wǎng)絡行為安全與青少年發(fā)展關鍵技術研究與示范應用”(2011BAK08B00)的資助。 論文的主要研究工作及創(chuàng)新之處包含以下幾方面: (1)針對評論數(shù)據(jù)中存在的特征空間高維、高冗余性問題,提出了一種基于多空間微粒群優(yōu)化的特征提取方法對N-gram特征進行篩選。通過對訓練樣本空間進行等粒度的交叉劃分,在每個樣本子空間上構建多組微粒群,經(jīng)過多次迭代尋優(yōu),形成多組具有差異性的特征提取方案,然后整合這些提取方案,形成了最終的特征評估結果。實驗結果表明,與傳統(tǒng)的特征提取算法相比,該方法提取的特征具有更強的情感區(qū)分能力,且在提取低維特征時能夠保持系統(tǒng)的識別準確性。 (2)針對情感識別中訓練樣本的手動標注代價太大的問題,提出了一種基于自適應多視圖選擇的半監(jiān)督情感識別算法。該算法引入情感詞表計算N-gram特征的情感強度,根據(jù)情感強度的分布信息來選擇特征視圖,并在視圖迭代選擇中自適應地構建特征維度重要度的分布以確定每個視圖采樣的維度,最后形成較少數(shù)量的視圖,對無標記樣本進行集成篩選。篩選過程中,每次選取出標注置信度最高的樣本來更新訓練集,經(jīng)過若干次迭代以完成半監(jiān)督訓練過程。實驗結果表明,與傳統(tǒng)的多視圖半監(jiān)督學習算法相比,提出的算法選取的特征視圖差異度較大,在無標記樣本的標注中置信度更高,并在最終的情感識別中表現(xiàn)出更高的識別準確率。此外,將評論的情感識別結果應用于在線課程的支持率預測中,與用戶星級評價相比,情感識別產(chǎn)生的預測結果更接近于實際的情感態(tài)度分布。 (3)由于課程評論中存在對課程多方面的評價信息,針對這種局部話題的挖掘,本文提出了一種基于確定性情感信息的話題挖掘方法。該方法利用情感識別階段訓練的情感識別模型獲取待測樣本的情感標簽信息,并建立“情感—文本”和“文本—話題—句子”的依賴關系以訓練話題—情感模型。為了檢測評論中的局部話題,該模型并沒有直接對每篇評論建模,而是對評論中關鍵情感語句進行建模,并假設評論中每個語句中的單詞均只涉及一種情感傾向和一種話題,充分考慮到不同語句單元間的話題關聯(lián)性。實驗結果表明,與傳統(tǒng)的Author-Topic模型相比,提出的方法具有更強的泛化能力,提取出的話題間相似度更低,且話題內(nèi)單詞表示的聚合度更高。最后,將該模型應用于課程單元與學習者個體的話題情感挖掘中,采用情感一話題一單詞的概率分布來表示每個課程單元或學習者個體的關鍵話題信息。
【學位授予單位】:華中師范大學
【學位級別】:博士
【學位授予年份】:2014
【分類號】:G40-057
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 何陽;葉柯柯;;基于“北郵人論壇”的北京郵電大學校園網(wǎng)絡輿情分析報告[J];北京郵電大學學報(社會科學版);2012年02期
2 魏順平;;Moodle平臺數(shù)據(jù)挖掘研究——以一門在線培訓課程學習過程分析為例[J];中國遠程教育;2011年01期
3 滕云;陳玲;;基于BBS文本分析的高校網(wǎng)絡輿情特點及管理對策[J];北京教育(德育);2013年04期
4 孫艷;周學廣;付偉;;基于主題情感混合模型的無監(jiān)督文本情感分析[J];北京大學學報(自然科學版);2013年01期
5 李宗偉;;在線評論影響消費者購買決策的模型構建研究[J];創(chuàng)新;2013年05期
6 薛云霞;李壽山;王中卿;;基于社會關系網(wǎng)絡的半監(jiān)督情感分類[J];北京大學學報(自然科學版);2014年01期
7 尹裴;王洪偉;郭愷強;;中文產(chǎn)品評論的“特征觀點對”識別:基于領域本體的建模方法[J];系統(tǒng)工程;2013年01期
8 郭婷;;情感詞獲取與分類評級——以中大BBS輿情分析系統(tǒng)為研究對象[J];劍南文學(經(jīng)典教苑);2013年09期
9 施國良;程楠楠;;Web環(huán)境下產(chǎn)品評論挖掘在企業(yè)競爭情報中的應用[J];情報雜志;2011年11期
10 趙妍妍;秦兵;劉挺;;文本情感分析[J];軟件學報;2010年08期
,本文編號:1268587
本文鏈接:http://www.sikaile.net/shoufeilunwen/sklbs/1268587.html