WEB文本情感分類中關(guān)鍵問題的研究(可復(fù)制論文).pdf 全文
本文關(guān)鍵詞:WEB文本情感分類中關(guān)鍵問題的研究,由筆耕文化傳播整理發(fā)布。
摘要
北京郵電人學(xué)博士學(xué)位論文
WEB文本情感分類中關(guān)鍵問題的研究
摘要
隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)在線的文檔成為現(xiàn)代主
要的信息載體,是人們生活中不可或缺的主要信息來源。而隨著互聯(lián)網(wǎng)
進(jìn)入web2.0時(shí)代,人們從被動(dòng)的接受門戶網(wǎng)站發(fā)布信息,轉(zhuǎn)變?yōu)橹鲃?dòng)的
獲取、發(fā)布、共享、傳播信息。同時(shí),由于用戶參與到信息的產(chǎn)生,網(wǎng)
絡(luò)信息的內(nèi)容形式也變得多樣化,越來越多的具有個(gè)人觀點(diǎn)性的內(nèi)容充
斥著網(wǎng)絡(luò)。這些觀點(diǎn)性內(nèi)容對于網(wǎng)絡(luò)電子商務(wù)、網(wǎng)絡(luò)社區(qū)發(fā)掘、網(wǎng)絡(luò)信
息安全、網(wǎng)絡(luò)信息檢索等多方面都具有重要的意義和實(shí)用價(jià)值。對網(wǎng)絡(luò)
文本觀點(diǎn)性內(nèi)容的自動(dòng)情感分析成為近期web信息處理的一個(gè)研究熱
點(diǎn),而其中的核心技術(shù)就是文本情感分類。
在這樣一個(gè)背景下,本文對面向web文本的中文分詞、文本情感分
類以及Weblog觀點(diǎn)檢索問題進(jìn)行了下述創(chuàng)新性研究工作:
首先,研究了面向web文本的中文分詞問題。根據(jù)web文本環(huán)境的
特點(diǎn),研究重點(diǎn)在于中文分詞中的未登錄詞識別問題,同時(shí)兼顧切分歧
義消解、整體切分準(zhǔn)確率和高效處理海量文本的能力。在未登錄詞識別
方面,提出了POC.NLW字符標(biāo)記模板,從字符級別的粒度來表征中文
詞匯的構(gòu)成機(jī)制,并結(jié)合隱馬爾可夫模型,實(shí)現(xiàn)了基于字符序列標(biāo)注的
中文分詞方法。此外,分別使用了基于規(guī)則匹配的預(yù)處理、基于詞典匹
配的初級全切分、基于詞語級別的N.Gram統(tǒng)計(jì)切分模型,并通過級聯(lián)方
式將上述各模塊有效組合,,構(gòu)成了多模型混合的層疊系統(tǒng)。實(shí)驗(yàn)結(jié)果表
明,本文提出
本文關(guān)鍵詞:WEB文本情感分類中關(guān)鍵問題的研究,由筆耕文化傳播整理發(fā)布。
本文編號:102956
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/102956.html