天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

改進(jìn)的K近鄰算法及其在文本分析中的應(yīng)用

發(fā)布時(shí)間:2021-08-11 18:28
  隨著互聯(lián)網(wǎng)的發(fā)展,實(shí)體經(jīng)濟(jì)與互聯(lián)網(wǎng)的結(jié)合越來(lái)越緊密,人們由線下消費(fèi)向線上消費(fèi)轉(zhuǎn)移;ヂ(lián)網(wǎng)上積累了大量人們參與的實(shí)體消費(fèi)的評(píng)論信息。這些評(píng)論信息是顧客線上消費(fèi)的重要參考依據(jù),同時(shí)也是經(jīng)營(yíng)實(shí)體經(jīng)營(yíng)決策的重要參考,因此合理有效的挖掘評(píng)論數(shù)據(jù),提取顧客消費(fèi)評(píng)論中的關(guān)注點(diǎn)和情感因素對(duì)實(shí)體經(jīng)濟(jì)發(fā)展具有重要作用。k近鄰算法因其理論簡(jiǎn)單,易于實(shí)施等優(yōu)點(diǎn)在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域得到廣泛應(yīng)用。但是針對(duì)文本分析中特征維度高、文本數(shù)值化后語(yǔ)意解釋等問(wèn)題,傳統(tǒng)k近鄰算法無(wú)法很好的處理。對(duì)傳統(tǒng)k近鄰算法進(jìn)行改進(jìn)優(yōu)化,使其更加適用于文本分析處理場(chǎng)景是本文的研究重點(diǎn)。本文主要?jiǎng)?chuàng)新點(diǎn)如下:(1)針對(duì)文本分詞后得到的詞向量忽略了上下文語(yǔ)意關(guān)系,導(dǎo)致算法準(zhǔn)確率較低的缺點(diǎn),引入組合特征,將前后相連的實(shí)體詞與情感修飾詞相結(jié)合形成組合特征,使詞向量保持基本的語(yǔ)意關(guān)系,提高算法的準(zhǔn)確率。實(shí)驗(yàn)證明,在不同算法模型下,引入組合特征可以得到更高的擬合準(zhǔn)確率。(2)基于TF-IDF和基尼不純度構(gòu)造特征篩選綜合指標(biāo)(TF-GINI)進(jìn)行特征選擇,在彌補(bǔ)TF-IDF在有監(jiān)督學(xué)習(xí)樣本中忽略類別變量的缺陷的同時(shí)降低特征維度,提高算法效率,并以TF... 

【文章來(lái)源】:南京郵電大學(xué)江蘇省

【文章頁(yè)數(shù)】:69 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

改進(jìn)的K近鄰算法及其在文本分析中的應(yīng)用


文本情感分析流程圖

流程圖,流程圖,據(jù)點(diǎn),近鄰


南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第二章相關(guān)背景知識(shí)介紹12具體流程如下:圖2.2KD樹建樹流程圖在樹模型中搜索待分類數(shù)據(jù)點(diǎn)的近鄰數(shù)據(jù)點(diǎn):在樹模型中可以更加快速的搜索待分類數(shù)據(jù)點(diǎn)的近鄰數(shù)據(jù)點(diǎn),對(duì)于待分類的數(shù)據(jù)點(diǎn),將其帶入到KD樹中,遍歷得到包含待分類數(shù)據(jù)點(diǎn)的葉子節(jié)點(diǎn)。以待分類數(shù)據(jù)點(diǎn)為圓心,葉子節(jié)點(diǎn)到待分類數(shù)據(jù)點(diǎn)之間的間隔度量值為半徑,形成超球體,離待分類數(shù)據(jù)點(diǎn)間隔度量值最小的數(shù)據(jù)點(diǎn)一定在超球體內(nèi)。返回父節(jié)點(diǎn),在另一個(gè)子節(jié)點(diǎn)檢查其包含的數(shù)據(jù)點(diǎn)形成的超矩形是否與超球體相交,如果相交,計(jì)算該子節(jié)點(diǎn)包含的數(shù)據(jù)點(diǎn)與待分類數(shù)據(jù)點(diǎn)的間隔值,若小于半徑,更新最近鄰數(shù)據(jù)點(diǎn)。若不相交,返回父節(jié)點(diǎn)的父節(jié)點(diǎn),繼續(xù)搜索待分類數(shù)據(jù)點(diǎn)的最近鄰數(shù)據(jù)點(diǎn),直到回到KD樹的根節(jié)點(diǎn),結(jié)束KD樹搜索。綜上所述,利用KD樹搜索待分類數(shù)據(jù)點(diǎn)的近鄰數(shù)據(jù)點(diǎn),可以很大程度的減少數(shù)據(jù)點(diǎn)間間隔度量值的計(jì)算,若超矩形與超球體不相交,則不需要計(jì)算待分類數(shù)據(jù)點(diǎn)與另一子樹包含的數(shù)據(jù)點(diǎn)之間的間隔度量值,很大程度上減小了算法的運(yùn)行效率。KD樹預(yù)測(cè):利用KD樹對(duì)待分類數(shù)據(jù)點(diǎn)進(jìn)行類別預(yù)測(cè),只需通過(guò)KD樹搜索得到待分類數(shù)據(jù)點(diǎn)的k個(gè)近鄰數(shù)據(jù)點(diǎn),通過(guò)多數(shù)表決,就可以得到待分類數(shù)據(jù)點(diǎn)的類別。具體做法如下:首先通過(guò)KD樹尋找與待分類數(shù)據(jù)點(diǎn)最近的數(shù)據(jù)點(diǎn)作為第一個(gè)近鄰數(shù)據(jù)點(diǎn)。然后排除已找到的近鄰數(shù)據(jù)點(diǎn),在KD樹中繼續(xù)尋找與待分類數(shù)據(jù)點(diǎn)最近的數(shù)據(jù)點(diǎn),作為第二個(gè)近鄰數(shù)據(jù)點(diǎn),如此遍歷,直到找到k個(gè)與待分類數(shù)據(jù)點(diǎn)最近的數(shù)據(jù)點(diǎn),利用多數(shù)表決方式,對(duì)近鄰數(shù)據(jù)點(diǎn)進(jìn)行表決,得到待分類數(shù)據(jù)點(diǎn)的類別。

餅圖,樣本,酒店,園地


南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文第三章基于組合特征的詞向量構(gòu)建方法223.3仿真實(shí)驗(yàn)3.3.1實(shí)驗(yàn)數(shù)據(jù)本論文實(shí)驗(yàn)數(shù)據(jù)使用的是美團(tuán)網(wǎng)南京市30家如家酒店顧客消費(fèi)評(píng)論數(shù)據(jù),共16299條評(píng)論,包含很滿意、滿意、一般、不滿意、很不滿意5個(gè)類別。原始數(shù)據(jù)如下表:表3.2原始數(shù)據(jù)表將很滿意和滿意作為正面評(píng)論數(shù)據(jù),一般作為中性評(píng)論數(shù)據(jù),不滿意很不滿意作為負(fù)面評(píng)論數(shù)據(jù),其中正面評(píng)論8158條,中性評(píng)論數(shù)據(jù)4843條,負(fù)面評(píng)論3298條。圖3.2樣本占比圖通過(guò)餅圖可以發(fā)現(xiàn)酒店評(píng)論數(shù)據(jù)具有不平衡性,正面評(píng)論數(shù)據(jù)多與負(fù)面評(píng)論數(shù)據(jù),由于爬取的評(píng)論文本數(shù)據(jù)量較大,對(duì)正面評(píng)論數(shù)據(jù)進(jìn)行下采樣,隨機(jī)選擇4000條正面評(píng)論樣本用于模型建立,使正負(fù)面評(píng)論數(shù)據(jù)保持相對(duì)平衡,平衡數(shù)據(jù)集后,數(shù)據(jù)共12141條。選取80%數(shù)據(jù)作為訓(xùn)練集用于模型訓(xùn)練,剩下數(shù)據(jù)集作為測(cè)試集,評(píng)估模型性能。評(píng)論數(shù)據(jù)可以體現(xiàn)客戶對(duì)酒店入住的關(guān)注點(diǎn),在多條文本評(píng)論中出現(xiàn)的詞可店名評(píng)論時(shí)間評(píng)論者評(píng)論內(nèi)容文本得分?jǐn)?shù)值得分如家酒店(南京新街口張府園地鐵站店)2019-10-06匿名用戶服務(wù)好,,房間大,,非常干凈,地理位置特別好,就在張府園地鐵一號(hào)出口往前走幾步,距離新街很滿意5如家酒店(南京新街口張府園地鐵站店)2019-09-20匿名用戶離地張府園1號(hào)鐵口很近,離三元巷公交站很近,去各大景點(diǎn)都很方便住了兩晚,干凈舒適,打滿意4如家酒店(南京新街口張府園地鐵站店)2019-09-02gSl993432462前臺(tái)馬經(jīng)理服務(wù)非常好,熱情耐心的講解周邊小吃,旅游景點(diǎn),還幫我們預(yù)約景點(diǎn)門票,為她的很滿意5如家酒店(南京新街口張府園地鐵站店)2019-08-28蔣王彤房子挺好的,一家三口來(lái)南京玩住的,靠附近景區(qū),大洋百貨近。含了兩份自助早飯,可以很滿意5如家酒店(南京新街口張府園地鐵站店

【參考文獻(xiàn)】:
期刊論文
[1]基于詞袋模型和TF-IDF的短文本分類研究[J]. 黃春梅,王松磊.  軟件工程. 2020(03)
[2]淺談機(jī)器學(xué)習(xí)情感分析方法[J]. 李鼎.  農(nóng)家參謀. 2020(05)
[3]基于TF-IDF中文文本分類實(shí)現(xiàn)[J]. 石鳳貴.  現(xiàn)代計(jì)算機(jī). 2020(06)
[4]基于文本挖掘的京東商品評(píng)論分析[J]. 徐蕾,張科偉.  內(nèi)蒙古科技與經(jīng)濟(jì). 2020(03)
[5]K-Means聚類算法研究綜述[J]. 楊俊闖,趙超.  計(jì)算機(jī)工程與應(yīng)用. 2019(23)
[6]隨機(jī)森林算法研究綜述[J]. 呂紅燕,馮倩.  河北省科學(xué)院學(xué)報(bào). 2019(03)
[7]基于改進(jìn)信息增益的特征選擇方法研究[J]. 董露露,馬寧.  萍鄉(xiāng)學(xué)院學(xué)報(bào). 2019(03)
[8]稀疏回歸和流形學(xué)習(xí)的無(wú)監(jiān)督特征選擇算法[J]. 周婉瑩,馬盈倉(cāng),鄭毅,楊小飛.  計(jì)算機(jī)應(yīng)用研究. 2020(09)
[9]一種采用冗余性動(dòng)態(tài)權(quán)重的特征選擇算法[J]. 肖利軍,郭繼昌,顧翔元.  西安電子科技大學(xué)學(xué)報(bào). 2019(05)
[10]基于KD樹和KNN的高校學(xué)生異常狀態(tài)預(yù)警算法研究[J]. 李礁,鐘樂(lè)海.  信息技術(shù)與信息化. 2019(05)

博士論文
[1]情感詞典構(gòu)建方法及其應(yīng)用研究[D]. 鄧東.北京交通大學(xué) 2019
[2]面向不平衡數(shù)據(jù)的特征選擇與半監(jiān)督分類算法研究[D]. 杜利敏.西南交通大學(xué) 2017

碩士論文
[1]基于過(guò)濾法的信息論特征選擇算法研究[D]. 張平.吉林大學(xué) 2018
[2]基于機(jī)器學(xué)習(xí)的情感分析方法研究[D]. 張磊.電子科技大學(xué) 2018



本文編號(hào):3336667

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3336667.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fee60***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com