Spark平臺(tái)下的短文本特征擴(kuò)展與分類研究

發(fā)布時(shí)間：2019-12-03 00:27

【摘要】：短文本分類經(jīng)常面臨特征維度高、特征稀疏、分類準(zhǔn)確率差的問(wèn)題。特征擴(kuò)展是解決上述問(wèn)題的有效方法,但卻面臨更大的短文本分類效率瓶頸。結(jié)合以上問(wèn)題和現(xiàn)狀,針對(duì)如何提升短文本分類準(zhǔn)確率及效率進(jìn)行了詳細(xì)研究,提出了一種Spark平臺(tái)上的基于關(guān)聯(lián)規(guī)則挖掘的短文本特征擴(kuò)展及分類方法。該方法首先采用背景語(yǔ)料庫(kù),通過(guò)關(guān)聯(lián)規(guī)則挖掘的方式對(duì)原短文本進(jìn)行特征補(bǔ)充;其次針對(duì)分類過(guò)程,提出基于距離選擇的層疊支持向量機(jī)(support vector machine,SVM)算法;最后設(shè)計(jì)Spark平臺(tái)上的短文本特征擴(kuò)展與分類算法,通過(guò)分布式算法設(shè)計(jì),提高短文本處理的效率。實(shí)驗(yàn)結(jié)果顯示,采用提出的Spark平臺(tái)上基于關(guān)聯(lián)規(guī)則挖掘的短文本特征擴(kuò)展方法后,針對(duì)大數(shù)據(jù)集,Spark集群上短文本特征擴(kuò)展及分類效率約為傳統(tǒng)單機(jī)上效率的4倍,且相比于傳統(tǒng)分類實(shí)驗(yàn),平均得到約15%的效率提升,其中特征擴(kuò)展及分類優(yōu)化準(zhǔn)確率提升分別為10%與5%。
【圖文】：

過(guò)程圖,文本分類,過(guò)程圖,短文

度講，涉及“美食”話題的微博數(shù)量達(dá)到10.8億條，互動(dòng)博文數(shù)量超過(guò)900億次。數(shù)據(jù)是21世紀(jì)最寶貴的財(cái)富，隨著短文本數(shù)據(jù)的增加，如何有效利用豐富的數(shù)據(jù)資產(chǎn)，產(chǎn)生巨大的再生價(jià)值，成為當(dāng)下學(xué)術(shù)及工業(yè)領(lǐng)域研究熱點(diǎn)。短文本分類技術(shù)在話題追蹤、輿情分析、信息檢索等多方面具有重要的研究及應(yīng)用價(jià)值。1.2問(wèn)題提出短文本作為文本的一種特殊類型，分類流程大致相同，即：給定帶標(biāo)簽C的文檔集D，定義函數(shù)F，求解每個(gè)文檔d與類別c的關(guān)系映射，并根據(jù)映射F，預(yù)測(cè)未知類別文檔集合D′對(duì)應(yīng)的類別C′。該過(guò)程描述如圖1所示。關(guān)于長(zhǎng)文本分類的研究開始較早，且研究成果顯著，如K近鄰、樸素貝葉斯、支持向量機(jī)等算法在不同文本分類問(wèn)題中得到廣泛應(yīng)用，并針對(duì)不同數(shù)據(jù)集及測(cè)試標(biāo)準(zhǔn)得到較好的分類效果。然而，因短文本實(shí)時(shí)性強(qiáng)、數(shù)據(jù)量大、字?jǐn)?shù)少、特征維度高、特征稀疏等特性，導(dǎo)致上述傳統(tǒng)分類方法在處理短文本時(shí)，分類效果不佳。相對(duì)于長(zhǎng)文本，短文本分類的瓶頸及挑戰(zhàn)主要體現(xiàn)在以下三方面：（1）因特征維數(shù)高采用傳統(tǒng)的針對(duì)長(zhǎng)文本進(jìn)行處理的方法，如分詞、TF-IDF、去停用詞（stopword）等操作時(shí)，很容易丟失短文本的語(yǔ)義信息。（2）因特征稀疏，使用傳統(tǒng)的長(zhǎng)文本分類方法，如K-近鄰（K-nearestneighbor，KNN）、樸素貝葉斯（naiveBayes，NB）、神經(jīng)網(wǎng)絡(luò)（neuralnetwork，NN）、支持向量機(jī)（supportvectormachine，SVM）進(jìn)行分類時(shí)，無(wú)法有效選擇特征，構(gòu)造向量空間。摘要：短文本分類經(jīng)常面臨特征維度高、特征稀疏、分類準(zhǔn)確率差的問(wèn)題。特征擴(kuò)展是解決上述問(wèn)題的有效方法，但卻面臨更大的短文本分類效率瓶頸。結(jié)合以上問(wèn)題和現(xiàn)狀，針對(duì)如何提升短文本分類準(zhǔn)確率及效率進(jìn)行了詳細(xì)研究，提出了一種Spark平臺(tái)上的基于關(guān)聯(lián)規(guī)則挖?

短文,分類過(guò)程

王雯等：Spark平臺(tái)下的短文本特征擴(kuò)展與分類研究2短文本特征擴(kuò)展如上文介紹，相比于長(zhǎng)文本，短文本因特征維度高，特征稀疏，在分類過(guò)程中特征抽取及特征展示階段面臨較大的瓶頸，進(jìn)而在分類過(guò)程中，分類準(zhǔn)確率表現(xiàn)不佳。下面介紹如何借助背景語(yǔ)料庫(kù)，采用關(guān)聯(lián)規(guī)則挖掘的方式，對(duì)短文本特征進(jìn)行擴(kuò)展。2.1方法描述基于關(guān)聯(lián)規(guī)則的特征擴(kuò)展方法要求對(duì)比短文本特征及背景語(yǔ)料庫(kù)關(guān)聯(lián)規(guī)則，使用背景語(yǔ)料庫(kù)中的關(guān)聯(lián)規(guī)則對(duì)短文本特征進(jìn)行補(bǔ)充。該方法實(shí)現(xiàn)過(guò)程如圖2所示。記數(shù)據(jù)集D為目標(biāo)短文本數(shù)據(jù)集，S={d1,d2,…,dn}為與目標(biāo)短文本相關(guān)的語(yǔ)料庫(kù)，如目標(biāo)短文本D為新聞標(biāo)題數(shù)據(jù)集，則語(yǔ)料庫(kù)S可以是對(duì)應(yīng)的新聞?wù)膬?nèi)容。以集合T={t1,t2,…,tk}表示語(yǔ)料庫(kù)S的特征集合，集合C={c1,c2,…,cm}表示數(shù)據(jù)集D和S的所有類別。以sup(t)表示特征t的支持度，sup(T)=Count(Dt)/Count(D)，Count(Dt)表示文本集中包含特征t的文檔的數(shù)量，Count(D)表示文檔總數(shù)。以conf(t,c)表示關(guān)聯(lián)規(guī)則t≥c成立的置信度，conf(t,c)=Count(t,c)/Count(Dt)，Count(t,c)表示t、c共同出現(xiàn)的文檔數(shù)，Count(Dt)表示出現(xiàn)特征t的文檔數(shù)。當(dāng)sup(T)超過(guò)最小支持度限制α?xí)r，稱集合T中子項(xiàng)之間具有一致性。如T包含t1、t2兩個(gè)子項(xiàng)，已知t1屬于類別C，則稱Tendency(t2)=c。以Conf(t1→t2)表示關(guān)聯(lián)規(guī)則t1→t2的置信度，以V(t)表示原短文本特征t的權(quán)重。首先對(duì)于原短文本特征，保留原特征值的權(quán)重，對(duì)背景語(yǔ)料庫(kù)，挖掘關(guān)聯(lián)規(guī)則，計(jì)算特征置信度，以置信度和原特征的權(quán)重乘積作為擴(kuò)展特征的權(quán)重值。如t3為原特征集與頻繁項(xiàng)集的共同特征，，假設(shè)關(guān)聯(lián)規(guī)則t3→t4，且Conf(t3→t4)

【相似文獻(xiàn)】

相關(guān)重要報(bào)紙文章前1條

1 本報(bào)記者那罡;微軟Spark計(jì)劃再添新成員[N];中國(guó)計(jì)算機(jī)報(bào);2009年

相關(guān)碩士學(xué)位論文前7條

1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計(jì)[D];西南交通大學(xué);2015年

2 陳曉康;基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年

3 李爭(zhēng)獻(xiàn);基于Spark的移動(dòng)終端信息推送系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2016年

4 趙洋;基于spark的網(wǎng)絡(luò)廣告交易計(jì)費(fèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年

5 尚勃;Spark平臺(tái)下基于深度學(xué)習(xí)的網(wǎng)絡(luò)短文本情感分類研究[D];西安建筑科技大學(xué);2016年

6 王海華;Spark數(shù)據(jù)處理平臺(tái)中內(nèi)存數(shù)據(jù)空間管理技術(shù)研究[D];北京工業(yè)大學(xué);2016年

7 皮興杰;基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)中等值連接問(wèn)題的優(yōu)化及其應(yīng)用[D];重慶大學(xué);2016年

本文編號(hào)：2568968

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2568968.html

上一篇：效應(yīng)蛋白數(shù)據(jù)庫(kù)的構(gòu)建及預(yù)測(cè)方法研究
下一篇：基于多特征融合的微博主題情感挖掘

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Spark平臺(tái)下的短文本特征擴(kuò)展與分類研究