天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

中文推送短消息文本分類技術(shù)研究與實現(xiàn)

發(fā)布時間:2020-06-04 04:29
【摘要】:隨著近年通信技術(shù)的大幅進步,以及智能手機功能的逐步完善與用戶量的日益增多,移動互聯(lián)網(wǎng)行業(yè)得以極速發(fā)展,并已廣泛融入于大眾生活中,從而產(chǎn)生大量的用戶推送信息。這些推送信息可反映出相關(guān)行業(yè)的發(fā)展情況,然而其內(nèi)容過于繁雜,難以進行管理。如何對這些信息進行有效過濾和整理,挖掘其中潛在價值成為一個亟需解決的問題。本文主要研究了針對中文推送短消息的自動分類問題,根據(jù)文本數(shù)據(jù)的特點實現(xiàn)并改進了分類算法。首先研究了文本預(yù)處理的相關(guān)技術(shù),選用合適的分詞方法,對某公司的推送短消息文本進行分詞處理。完成分詞處理以后,使用卡方校驗的方式選擇文本特征,將降維的文本轉(zhuǎn)化為稀疏向量的形式。之后通過kNN算法對四種文本相似性計算方法進行實驗對比,根據(jù)實驗結(jié)果選擇了余弦相似度大小作為分類過程中查找近鄰點的依據(jù)。然后,分析了kNN和決策樹兩種常用分類算法的優(yōu)勢與不足。由于kNN算法計算繁瑣,耗時較長,本文提出了一種結(jié)合決策樹的改進kNN文本分類算法TREE-kNN。通過CART決策樹,完成文本數(shù)據(jù)的預(yù)分類,評價每個葉子節(jié)點的分類效果。對于評價較低的節(jié)點中對應(yīng)的樣本,它的比較范圍縮小為僅包含該葉子節(jié)點所覆蓋類別下的子訓(xùn)練集,再對其使用改進的kNN算法進行分類。通過對訓(xùn)練集中樣本空間的劃分,縮小了kNN分類過程中與待分類樣本比較的訓(xùn)練樣本范圍,減少了余弦相似度的計算次數(shù),從而提高分類速度。為了解決k值較大情況下提速不明顯的問題,本文引入了類中心法優(yōu)化了近鄰樣本的查詢過程。實驗結(jié)果顯示,TREE-kNN算法的分類速度與傳統(tǒng)kNN算法相比有了明顯提升,分類結(jié)果的正確率也得到了提高。最后,本文基于上述分類方法設(shè)計和實現(xiàn)了針對大批量推送短消息數(shù)據(jù)的文本挖掘系統(tǒng),用于統(tǒng)計分類后的文本數(shù)量分布情況,并對統(tǒng)計數(shù)據(jù)進行可視化處理。借助Spark平臺,以并行化方式實現(xiàn)了文本特征選擇和文本向量化;將文本分詞,文本分類過程拆分成多個數(shù)據(jù)分區(qū)并行執(zhí)行,提高了任務(wù)執(zhí)行效率。文本分類完成后,利用Spark統(tǒng)計交易類文本的條數(shù)的時間分布和電商物流類文本條數(shù)的空間分布情況,保存到數(shù)據(jù)庫中。同時采用Web技術(shù),將統(tǒng)計數(shù)據(jù)的查詢方法封裝到Dubbo服務(wù)中,由系統(tǒng)的控制器模塊向數(shù)據(jù)查詢服務(wù)發(fā)起請求,將返回的統(tǒng)計數(shù)據(jù)發(fā)送到前端,前端利用Echarts把傳來的數(shù)據(jù)繪制成圖的形式渲染到頁面中。通過這種方式,清楚的展現(xiàn)出了推送短消息文本的時空分布規(guī)律。
【圖文】:

對比圖,對比圖,效率,方法


西安電子科技大學(xué)碩士學(xué)位論文12圖2.3 分詞效率對比圖實驗結(jié)果顯示,分詞速度最快的前幾位由高到低分別是:Ansj 的 BaseAnalysis 方法,Ansj 的 ToAnalysis 方法,HanLP 的 SpeedTokenizer 方法,,HanLP 的 Viterbi 方法,Jieba 分詞器。2.4 文本分詞技術(shù)選擇F 值是兼顧查準(zhǔn)率和召回率的綜合性評價指標(biāo),它能夠更全面的反映出分詞結(jié)果的好壞程度,因此本文使用 F 值作為評價分詞性能的參考標(biāo)準(zhǔn)。由于 HanLP 的 Viterbi方法在分詞速度上明顯快于 F 值最高的兩種 NLP 分詞方法

初始分布,近鄰,樣本,最近鄰


近鄰樣本初始分布圖
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP18;TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 趙國棟;李偉;張政;王昊;;一種基于語音識別與文本分類技術(shù)的非法廣播判別方法[J];中國無線電;2020年01期

2 高影繁;王惠臨;徐紅姣;;跨語言文本分類技術(shù)研究進展[J];情報理論與實踐;2010年11期

3 張春紅;;文本分類技術(shù)應(yīng)用于學(xué)科導(dǎo)航分類的可行性探討[J];情報科學(xué);2009年07期

4 周文霞;;現(xiàn)代文本分類技術(shù)研究[J];武警學(xué)院學(xué)報;2007年12期

5 高潔,吉根林;文本分類技術(shù)研究[J];計算機應(yīng)用研究;2004年07期

6 陳莊;楊春玉;;面向監(jiān)理工程的文本分類技術(shù)研究[J];重慶理工大學(xué)學(xué)報(自然科學(xué));2017年10期

7 張浩;汪楠;;文本分類技術(shù)研究進展[J];科技信息(科學(xué)教研);2007年23期

8 胡恬;王敬;;中文文本分類技術(shù)的研究[J];科技咨詢導(dǎo)報;2006年09期

9 鄧丁朋;周亞建;池俊輝;李佳樂;;短文本分類技術(shù)研究綜述[J];軟件;2020年02期

10 浦海晨,萬曉冬;一種基于文本分類技術(shù)的郵件過濾系統(tǒng)設(shè)計[J];科技廣場;2005年06期

相關(guān)會議論文 前4條

1 張娟;王慧鋒;;文本分類技術(shù)在海量金融信息處理中的應(yīng)用[A];第二十四屆中國控制會議論文集(下冊)[C];2005年

2 陳慶軒;鄭德權(quán);趙鐵軍;;多分類器融合的文本分類技術(shù)研究[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

3 嚴(yán)春美;郭熙銅;陳曉東;;基于電子病歷的智能診斷系統(tǒng)研究[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2011年

4 賀瑞芳;鐘紹春;程曉春;;教學(xué)資源的個性化搜索引擎研究[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年

相關(guān)重要報紙文章 前1條

1 周東;數(shù)威:創(chuàng)業(yè)之路有點難[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2005年

相關(guān)博士學(xué)位論文 前4條

1 井奚月;文本分類技術(shù)在文獻篩檢及質(zhì)性研究中的應(yīng)用研究[D];天津醫(yī)科大學(xué);2019年

2 程軍;基于統(tǒng)計的文本分類技術(shù)研究[D];中國科學(xué)院研究生院(文獻情報中心);2003年

3 郝秀蘭;文本分類技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年

4 楊創(chuàng)新;基于機器學(xué)習(xí)的高性能中文文本分類研究[D];華南理工大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 金旭;面向非對稱和多標(biāo)簽的文本分類技術(shù)研究[D];南京郵電大學(xué);2019年

2 王旌舟;中文文本分類技術(shù)研究及應(yīng)用[D];西南交通大學(xué);2019年

3 鄭騰;基于LDA特征擴展的短文本分類技術(shù)研究[D];武漢紡織大學(xué);2019年

4 蔡九鳴;中文推送短消息文本分類技術(shù)研究與實現(xiàn)[D];西安電子科技大學(xué);2019年

5 付豪;基于同異性遷移學(xué)習(xí)的短文本分類技術(shù)研究與應(yīng)用[D];北京郵電大學(xué);2019年

6 興艷云;基于機器學(xué)習(xí)的文本分類技術(shù)研究[D];青島科技大學(xué);2019年

7 陳震鴻;基于深度學(xué)習(xí)的多任務(wù)文本分類技術(shù)研究[D];華南理工大學(xué);2018年

8 張賽北;基于Spark的文本分類技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2017年

9 石逸軒;基于深度學(xué)習(xí)的文本分類技術(shù)研究[D];北京郵電大學(xué);2018年

10 姜松潤;手機取證中基于維基百科的文本分類技術(shù)研究與實現(xiàn)[D];北京郵電大學(xué);2018年



本文編號:2695894

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2695894.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b1b82***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com