天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向評(píng)論的文本傾向性分析中關(guān)鍵問題的研究

發(fā)布時(shí)間:2018-06-14 12:54

  本文選題:文本傾向 + 特征聚類; 參考:《北京化工大學(xué)》2016年碩士論文


【摘要】:如今,我國(guó)電子商務(wù)已經(jīng)極其普遍,淘寶、京東等大型購(gòu)物網(wǎng)站已經(jīng)占據(jù)了大部分市場(chǎng)。面對(duì)大量產(chǎn)品評(píng)論,企業(yè)為了獲取商業(yè)收益以及消費(fèi)者更好地做出購(gòu)買決策,需要了解用戶對(duì)產(chǎn)品的態(tài)度、觀點(diǎn)。利用人力去標(biāo)注文本情感,費(fèi)力費(fèi)時(shí),因此需利用計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)分析文本的情感傾向,這種技術(shù)稱為文本傾向性分析。如今,該技術(shù)取得了很多研究成果。本文的研究重點(diǎn)為對(duì)現(xiàn)有的文本傾向性分析方法中存在的關(guān)鍵問題進(jìn)行探索。在基于機(jī)器學(xué)習(xí)的文本傾向性分析中,重點(diǎn)研究由于訓(xùn)練、測(cè)試文本不在同一個(gè)領(lǐng)域引起的準(zhǔn)確率低的問題。針對(duì)文本分類中特征降維環(huán)節(jié),提出一種基于通用領(lǐng)域框架的特征聚類算法。針對(duì)基于加權(quán)SimRank跨領(lǐng)域文本傾向性方法中,存在的兩個(gè)領(lǐng)域特征對(duì)齊時(shí),在共現(xiàn)加權(quán)時(shí)未能考慮近義詞的問題,提出將基于通用領(lǐng)域框架的特征聚類應(yīng)用于該方法。實(shí)驗(yàn)表明,在保證了準(zhǔn)確率的前提下,節(jié)省了內(nèi)存空間,緩解了數(shù)據(jù)稀疏問題。在基于語義的文本傾向性分析中,重點(diǎn)研究詞語傾向性計(jì)算問題。針對(duì)常用的詞語傾向計(jì)算方法中,存在過于依賴知識(shí)庫(kù)以及不能準(zhǔn)確挖掘語義關(guān)系問題,本文提出一種基于詞向量的領(lǐng)域情感詞傾向性計(jì)算方法。該方法面向?qū)ο鬄轭I(lǐng)域情感詞,即在特定領(lǐng)域下經(jīng)常出現(xiàn)且具有明顯情感的詞語;贕oogle的word2vec工具,其通過神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)得到詞向量,將向量之間余弦距離作為詞的相近程度度量方式,衡量詞語與基準(zhǔn)詞相近程度,進(jìn)而判斷其傾向性。實(shí)驗(yàn)表明該方法有領(lǐng)域適應(yīng)性,且準(zhǔn)確率高。
[Abstract]:Nowadays, e-commerce in China has been extremely common, Taobao, JingDong and other large shopping sites have occupied most of the market. In the face of a large number of product reviews, enterprises need to understand the attitudes and viewpoints of customers in order to obtain business profits and make better purchase decisions. It is difficult and time-consuming to use manpower to label text emotion, so it is necessary to use computer to realize automatic analysis of text emotional tendency. This technique is called text orientation analysis. Today, the technology has made a lot of research results. The research focus of this paper is to explore the key problems in the existing text orientation analysis methods. In text orientation analysis based on machine learning, this paper focuses on the problem of low accuracy caused by the fact that the test text is not in the same domain because of training. A feature clustering algorithm based on general domain framework is proposed for feature dimensionality reduction in text classification. In the weighted SimRank cross-domain text orientation method, when the two domain features are aligned, the synonyms are not considered when they are weighted together, so the feature clustering based on the general domain framework is applied to this method. Experiments show that the memory space is saved and the problem of data sparsity is alleviated. In semantic-based text orientation analysis, the emphasis is placed on word orientation calculation. In order to solve the problem of relying too much on the knowledge base and not mining the semantic relation accurately in the common methods of word tendency calculation, this paper proposes a method for calculating the tendency of domain affective words based on word vector. This method is object oriented for domain affective words, that is, words that often appear in specific fields and have obvious emotions. Based on the word2vec tool, the word vector is obtained by using neural network. The cosine distance between the vectors is regarded as the measure of the degree of similarity between the words, and the similarity between the words and the reference words is measured, and then the tendency of the word is judged. Experiments show that the method is domain adaptive and has high accuracy.
【學(xué)位授予單位】:北京化工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉建毅;王菁華;王樅;;文本網(wǎng)絡(luò)表示研究與應(yīng)用[J];中國(guó)科技論文在線;2007年10期

2 吳思竹;張智雄;錢慶;;基于語言網(wǎng)絡(luò)的文本表示模型研究[J];情報(bào)科學(xué);2013年12期

3 于屏方;杜家利;;文本排歧語義圖式的自動(dòng)獲取與選擇[J];計(jì)算機(jī)工程與應(yīng)用;2007年31期

4 陳燕敏;樓喜中;;一種基于集聚確定文本意向結(jié)構(gòu)的方法[J];微計(jì)算機(jī)信息;2010年18期

5 袁鼎榮;鐘寧;張師超;;文本信息處理研究述評(píng)[J];計(jì)算機(jī)科學(xué);2011年02期

6 林鴻飛,戰(zhàn)學(xué)剛,姚天順;文本層次分析與文本瀏覽[J];中文信息學(xué)報(bào);1999年04期

7 姚天f ;“自然語言多語種文本生成系統(tǒng)”在上海交通大學(xué)研制成功[J];中文信息學(xué)報(bào);1999年04期

8 石晶;;文本分割綜述[J];計(jì)算機(jī)工程與應(yīng)用;2006年35期

9 劉紅紅;安海忠;高湘昀;;基于文本復(fù)雜網(wǎng)絡(luò)的內(nèi)容結(jié)構(gòu)特征分析[J];現(xiàn)代圖書情報(bào)技術(shù);2011年01期

10 張曉龍,,姚天順;基于文本句法的文本生成模型[J];武漢鋼鐵學(xué)院學(xué)報(bào);1995年01期

相關(guān)會(huì)議論文 前6條

1 楊艷;李巍;玄萍;;數(shù)字圖書館中基于Ontology的文本模型[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年

2 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本結(jié)構(gòu)的自動(dòng)分析[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

3 海麗且木·艾沙;維尼拉·木沙江;;Web文本分類及其維、哈、柯多文種信息檢索中的應(yīng)用研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

4 劉玲;周經(jīng)野;羅慧慧;;基于XML的文本規(guī)劃方法[A];2005年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年

5 蘇貴洋 ;李建華 ;馬穎華;;XML統(tǒng)一文本自動(dòng)處理描述接口[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

6 揭春雨;劉曉月;冼景炬;衛(wèi)真道;;從網(wǎng)絡(luò)獲取香港法律雙語語料庫(kù)[A];全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

相關(guān)博士學(xué)位論文 前10條

1 方瑩;面向熱點(diǎn)新聞話題的文本處理技術(shù)研究[D];北京理工大學(xué);2015年

2 鳳麗洲;文本分類關(guān)鍵技術(shù)及應(yīng)用研究[D];吉林大學(xué);2015年

3 李巖;基于深度學(xué)習(xí)的短文本分析與計(jì)算方法研究[D];北京科技大學(xué);2016年

4 程齊凱;學(xué)術(shù)文本的詞匯功能識(shí)別[D];武漢大學(xué);2015年

5 劉赫;文本分類中若干問題研究[D];吉林大學(xué);2009年

6 賴彥;新聞話語對(duì)話性的文本分析與闡釋[D];南京師范大學(xué);2011年

7 鐘茂生;基于內(nèi)容相關(guān)度計(jì)算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年

8 廖一星;文本分類及其特征降維研究[D];浙江大學(xué);2012年

9 單建芳;面向事件的文本表示研究[D];上海大學(xué);2012年

10 孫巧榆;復(fù)雜背景圖像的文本信息提取研究[D];華東師范大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 江長(zhǎng)柱;用戶咨詢文本的語義相似度計(jì)算方法研究[D];江蘇科技大學(xué);2015年

2 李欣;基于維度判別的文本情感聚類方法研究[D];山西大學(xué);2015年

3 黃志鋒;中職語文教學(xué)“反文本”傾向探究[D];寧波大學(xué);2015年

4 李麗娜;基于BIM的建設(shè)項(xiàng)目文本信息集成管理研究[D];大連理工大學(xué);2015年

5 葛文鎮(zhèn);面向微博的短文本多分類研究[D];寧波大學(xué);2015年

6 郭蘇穎;文本難度對(duì)高職高專生閱讀理解的影響研究[D];閩南師范大學(xué);2015年

7 袁媛;基于半監(jiān)督學(xué)習(xí)的短文本分類研究[D];西北師范大學(xué);2015年

8 劉茜茜;病理鏡檢文本的結(jié)構(gòu)化處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];東華大學(xué);2016年

9 高士林;圖像中的文本定位技術(shù)研究[D];解放軍信息工程大學(xué);2014年

10 肖誠(chéng)求;自然場(chǎng)景圖像中文本提取技術(shù)研究[D];解放軍信息工程大學(xué);2015年



本文編號(hào):2017457

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/dianzishangwulunwen/2017457.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶53aa8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com