數(shù)據(jù)挖掘方法在評論分類中的應(yīng)用研究
本文關(guān)鍵詞:數(shù)據(jù)挖掘方法在評論分類中的應(yīng)用研究
更多相關(guān)文章: 情感分類 價值分類 語義傾向 點互信息 最大熵模型 指代識別
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展和普及,網(wǎng)絡(luò)已經(jīng)成為人們生活不可或缺的一部分。人們通過互聯(lián)網(wǎng)看書、視頻、學(xué)習(xí)、討論、購物時常常會在相關(guān)頁面上留下關(guān)于該頁面主題的評論。特別地,消費者在電商網(wǎng)站上進行網(wǎng)購之后都會留下關(guān)于購買產(chǎn)品的評論信息。目前,隨著網(wǎng)絡(luò)上的評論信息劇增,評論數(shù)據(jù)的有效利用問題已經(jīng)越來越收到人們的關(guān)注。面對大量的評論數(shù)據(jù),如何從中挖掘到有用的信息對網(wǎng)站用戶、服務(wù)商、生產(chǎn)商都有著重要的意義。然而頁面上的評論信息屬于非結(jié)構(gòu)化數(shù)據(jù),也就是代表評論數(shù)據(jù)本身并沒有一個預(yù)定義的數(shù)據(jù)模型。由于評論數(shù)據(jù)的不規(guī)則性和不明確性,使得其相對于按字段存儲在數(shù)據(jù)庫的數(shù)據(jù)難以用傳統(tǒng)的程序進行分析、統(tǒng)計或歸納。如何從海量的評論數(shù)據(jù)中提取有用的信息以方便用戶、服務(wù)商和生產(chǎn)商有效、快捷地利用是本文主要探討的問題。本文的主要任務(wù)包括對評論數(shù)據(jù)進行的情感分類和進行基于價值分類。對于評論的情感分類,文本提出一種基于情感詞抽取和點互信息的非監(jiān)督學(xué)習(xí)方法。其中,對句子進行分詞、詞性識別并從中抽取情感詞,減少了分類時噪聲的引入。通過計算情感詞和范例詞的PMI值得出一個評論文檔的情感傾向。對于用戶而言,評論數(shù)據(jù)情感傾向并不能滿足評論閱讀者的需求,因此提出一種基于引入指向特征的最大熵模型方法對評論數(shù)據(jù)進行價值分類。該方法認為評論數(shù)據(jù)中有價值的信息除了與文本長度、是否存在描述性詞語等特征相關(guān)還與評論文本是否指向主題相關(guān)。提出一種基于IP樹的文本指向識別方法,對識別結(jié)果作為特征引入到模型訓(xùn)練中,實驗證明該方法構(gòu)造的分類器具有較好的分類效果。
【關(guān)鍵詞】:情感分類 價值分類 語義傾向 點互信息 最大熵模型 指代識別
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-11
- 第一章 緒論11-15
- 1.1 研究背景及意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.3 論文結(jié)構(gòu)14-15
- 第二章 評論分類相關(guān)技術(shù)背景介紹15-23
- 2.1 文本分類相關(guān)概念介紹15-16
- 2.2 評論分類的研究方向介紹16-18
- 2.2.1 情感分類16-17
- 2.2.2 價值分類17-18
- 2.3 基于機器學(xué)習(xí)的評論分類18-19
- 2.4 最大熵模型19-21
- 2.5 語義傾向方法在評論分類中的應(yīng)用21-23
- 第三章 基于語義傾向的評論情感分類23-33
- 3.1 評論的情感分類流程介紹23-24
- 3.2 基于PMI-IR的語義傾向24-26
- 3.3 評論文本爬取26-29
- 3.3.1 爬蟲系統(tǒng)流程介紹26-27
- 3.3.2 抓取模塊設(shè)計27-28
- 3.3.3 基于DOM的文本抽取模塊設(shè)計28-29
- 3.4 實驗流程與結(jié)果分析29-33
- 3.4.1 評論文本的語義傾向分類29-30
- 3.4.2 文本分類指標(biāo)30-31
- 3.4.3 實驗流程與結(jié)果分析31-33
- 第四章 基于機器學(xué)習(xí)的評論價值分類33-43
- 4.1 預(yù)處理33-35
- 4.2 基于二值特征最大熵文本分類35-37
- 4.3 評論文本的價值分類方法37-41
- 4.3.1 建立特征資源庫37-38
- 4.3.2 基于句法分析的評論對象識別38-40
- 4.3.3 二值特征函數(shù)的構(gòu)建40-41
- 4.4 實驗結(jié)果與分析41-43
- 第五章 總結(jié)與展望43-45
- 總結(jié)43-44
- 展望44-45
- 參考文獻45-49
- 攻讀學(xué)位期間發(fā)表的論文49-51
- 致謝51
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 徐揚;;基于最大熵模型的漢語隱喻現(xiàn)象識別[J];計算機工程與科學(xué);2007年04期
2 王素格;楊軍玲;張武;;基于最大熵模型與投票法的漢語動詞與動詞搭配識別[J];小型微型計算機系統(tǒng);2007年07期
3 李濟洪;王瑞波;王凱華;李國臣;;基于最大熵模型的中文閱讀理解問題回答技術(shù)研究[J];中文信息學(xué)報;2008年06期
4 謝法奎;張全;;基于最大熵模型的語義塊切分[J];計算機工程與應(yīng)用;2009年26期
5 樊娜;蔡皖東;趙煜;;基于最大熵模型的觀點句主觀關(guān)系提取[J];計算機工程;2010年02期
6 葛斌;封孝生;譚文堂;肖衛(wèi)東;;基于多層最大熵模型的句子主干分析[J];計算機科學(xué);2010年12期
7 方明;劉培玉;;基于最大熵模型的評價搭配識別[J];計算機應(yīng)用研究;2011年10期
8 陸銘;康雨潔;俞能海;;簡約語法規(guī)則和最大熵模型相結(jié)合的混合實體識別[J];小型微型計算機系統(tǒng);2012年03期
9 董曉凱;莫蘇寧;李博;陸偉;;基于最大熵模型下復(fù)合特征模板的產(chǎn)品屬性挖掘研究[J];蘇州科技學(xué)院學(xué)報(自然科學(xué)版);2012年01期
10 高燕;張維維;張艷紅;謝燕萍;蘇凝;;最大熵模型在最長地點實體識別中的應(yīng)用[J];廣東石油化工學(xué)院學(xué)報;2012年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 趙偉;趙法興;王東海;韓達奇;;一種基于改進的最大熵模型的漢語詞性自動標(biāo)注的新方法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年
2 王素格;張武;李德玉;楊軍玲;彭其偉;;基于最大熵模型的漢語動詞與動詞搭配識別[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
3 林紅;胡欣;;最大熵模型的應(yīng)用[A];新世紀(jì)氣象科技創(chuàng)新與大氣科學(xué)發(fā)展——中國氣象學(xué)會2003年年會“地球氣候和環(huán)境系統(tǒng)的探測與研究”分會論文集[C];2003年
4 李濟洪;王凱華;王瑞波;;基于最大熵模型的中文閱讀理解技術(shù)研究[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
5 李軍輝;朱巧明;李培峰;;一個基于最大熵模型的文本分類方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
6 谷波;劉開瑛;;決策樹模型和最大熵模型在文本分類中的比較研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
7 朱江濤;趙麗奎;蔡東風(fēng);;基于最大熵模型的中文姓名識別方法初探[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
8 劉方舟;施勤;陶建華;;基于最大熵模型的多音字消歧[A];第九屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2007年
9 王凱華;李濟洪;張國華;王瑞波;;基于最大熵模型的中文閱讀理解問答系統(tǒng)技術(shù)研究[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
10 游斕;周雅倩;黃萱菁;吳立德;;基于最大熵模型的QA系統(tǒng)置信度評分算法[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 孫承杰;基于判別式模型的生物醫(yī)學(xué)文本挖掘相關(guān)問題研究[D];哈爾濱工業(yè)大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周明震;最大熵模型的T-S模糊化[D];遼寧科技大學(xué);2016年
2 李杰駿;數(shù)據(jù)挖掘方法在評論分類中的應(yīng)用研究[D];廣東工業(yè)大學(xué);2016年
3 王煦祥;面向問答的問句關(guān)鍵詞提取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2016年
4 楊振磊;基于最大熵模型的智能提問系統(tǒng)研究[D];天津大學(xué);2008年
5 賈麗潔;基于最大熵模型的分詞技術(shù)研究[D];山東師范大學(xué);2007年
6 劉大保;基于最大熵的智能提問系統(tǒng)及其在審計中的應(yīng)用[D];哈爾濱工程大學(xué);2013年
7 付琳;利用非廣延最大熵模型進行文本分類[D];天津大學(xué);2009年
8 步;;基于最大熵模型的中文姓名識別研究[D];山東大學(xué);2006年
9 梅燦華;基于最大熵模型的遷移學(xué)習(xí)算法研究[D];合肥工業(yè)大學(xué);2011年
10 譚文堂;基于統(tǒng)計模型的漢語句子主干分析[D];國防科學(xué)技術(shù)大學(xué);2008年
,本文編號:803535
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/803535.html