Spark平臺(tái)下的短文本特征擴(kuò)展與分類研究
【圖文】:
度講,涉及“美食”話題的微博數(shù)量達(dá)到10.8億條,互動(dòng)博文數(shù)量超過(guò)900億次。數(shù)據(jù)是21世紀(jì)最寶貴的財(cái)富,隨著短文本數(shù)據(jù)的增加,如何有效利用豐富的數(shù)據(jù)資產(chǎn),產(chǎn)生巨大的再生價(jià)值,成為當(dāng)下學(xué)術(shù)及工業(yè)領(lǐng)域研究熱點(diǎn)。短文本分類技術(shù)在話題追蹤、輿情分析、信息檢索等多方面具有重要的研究及應(yīng)用價(jià)值。1.2問(wèn)題提出短文本作為文本的一種特殊類型,分類流程大致相同,即:給定帶標(biāo)簽C的文檔集D,定義函數(shù)F,求解每個(gè)文檔d與類別c的關(guān)系映射,并根據(jù)映射F,預(yù)測(cè)未知類別文檔集合D′對(duì)應(yīng)的類別C′。該過(guò)程描述如圖1所示。關(guān)于長(zhǎng)文本分類的研究開始較早,且研究成果顯著,如K近鄰、樸素貝葉斯、支持向量機(jī)等算法在不同文本分類問(wèn)題中得到廣泛應(yīng)用,并針對(duì)不同數(shù)據(jù)集及測(cè)試標(biāo)準(zhǔn)得到較好的分類效果。然而,因短文本實(shí)時(shí)性強(qiáng)、數(shù)據(jù)量大、字?jǐn)?shù)少、特征維度高、特征稀疏等特性,導(dǎo)致上述傳統(tǒng)分類方法在處理短文本時(shí),分類效果不佳。相對(duì)于長(zhǎng)文本,短文本分類的瓶頸及挑戰(zhàn)主要體現(xiàn)在以下三方面:(1)因特征維數(shù)高采用傳統(tǒng)的針對(duì)長(zhǎng)文本進(jìn)行處理的方法,如分詞、TF-IDF、去停用詞(stopword)等操作時(shí),很容易丟失短文本的語(yǔ)義信息。(2)因特征稀疏,使用傳統(tǒng)的長(zhǎng)文本分類方法,如K-近鄰(K-nearestneighbor,KNN)、樸素貝葉斯(naiveBayes,NB)、神經(jīng)網(wǎng)絡(luò)(neuralnetwork,NN)、支持向量機(jī)(supportvectormachine,SVM)進(jìn)行分類時(shí),無(wú)法有效選擇特征,構(gòu)造向量空間。摘要:短文本分類經(jīng)常面臨特征維度高、特征稀疏、分類準(zhǔn)確率差的問(wèn)題。特征擴(kuò)展是解決上述問(wèn)題的有效方法,但卻面臨更大的短文本分類效率瓶頸。結(jié)合以上問(wèn)題和現(xiàn)狀,針對(duì)如何提升短文本分類準(zhǔn)確率及效率進(jìn)行了詳細(xì)研究,提出了一種Spark平臺(tái)上的基于關(guān)聯(lián)規(guī)則挖?
王雯等:Spark平臺(tái)下的短文本特征擴(kuò)展與分類研究2短文本特征擴(kuò)展如上文介紹,相比于長(zhǎng)文本,短文本因特征維度高,特征稀疏,在分類過(guò)程中特征抽取及特征展示階段面臨較大的瓶頸,進(jìn)而在分類過(guò)程中,分類準(zhǔn)確率表現(xiàn)不佳。下面介紹如何借助背景語(yǔ)料庫(kù),采用關(guān)聯(lián)規(guī)則挖掘的方式,對(duì)短文本特征進(jìn)行擴(kuò)展。2.1方法描述基于關(guān)聯(lián)規(guī)則的特征擴(kuò)展方法要求對(duì)比短文本特征及背景語(yǔ)料庫(kù)關(guān)聯(lián)規(guī)則,使用背景語(yǔ)料庫(kù)中的關(guān)聯(lián)規(guī)則對(duì)短文本特征進(jìn)行補(bǔ)充。該方法實(shí)現(xiàn)過(guò)程如圖2所示。記數(shù)據(jù)集D為目標(biāo)短文本數(shù)據(jù)集,S={d1,d2,…,dn}為與目標(biāo)短文本相關(guān)的語(yǔ)料庫(kù),如目標(biāo)短文本D為新聞標(biāo)題數(shù)據(jù)集,則語(yǔ)料庫(kù)S可以是對(duì)應(yīng)的新聞?wù)膬?nèi)容。以集合T={t1,t2,…,tk}表示語(yǔ)料庫(kù)S的特征集合,集合C={c1,c2,…,cm}表示數(shù)據(jù)集D和S的所有類別。以sup(t)表示特征t的支持度,sup(T)=Count(Dt)/Count(D),Count(Dt)表示文本集中包含特征t的文檔的數(shù)量,Count(D)表示文檔總數(shù)。以conf(t,c)表示關(guān)聯(lián)規(guī)則t≥c成立的置信度,conf(t,c)=Count(t,c)/Count(Dt),Count(t,c)表示t、c共同出現(xiàn)的文檔數(shù),Count(Dt)表示出現(xiàn)特征t的文檔數(shù)。當(dāng)sup(T)超過(guò)最小支持度限制α?xí)r,稱集合T中子項(xiàng)之間具有一致性。如T包含t1、t2兩個(gè)子項(xiàng),已知t1屬于類別C,則稱Tendency(t2)=c。以Conf(t1→t2)表示關(guān)聯(lián)規(guī)則t1→t2的置信度,以V(t)表示原短文本特征t的權(quán)重。首先對(duì)于原短文本特征,保留原特征值的權(quán)重,對(duì)背景語(yǔ)料庫(kù),挖掘關(guān)聯(lián)規(guī)則,計(jì)算特征置信度,以置信度和原特征的權(quán)重乘積作為擴(kuò)展特征的權(quán)重值。如t3為原特征集與頻繁項(xiàng)集的共同特征,,假設(shè)關(guān)聯(lián)規(guī)則t3→t4,且Conf(t3→t4)
【相似文獻(xiàn)】
相關(guān)重要報(bào)紙文章 前1條
1 本報(bào)記者 那罡;微軟Spark計(jì)劃再添新成員[N];中國(guó)計(jì)算機(jī)報(bào);2009年
相關(guān)碩士學(xué)位論文 前7條
1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計(jì)[D];西南交通大學(xué);2015年
2 陳曉康;基于Spark 云計(jì)算平臺(tái)的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年
3 李爭(zhēng)獻(xiàn);基于Spark的移動(dòng)終端信息推送系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2016年
4 趙洋;基于spark的網(wǎng)絡(luò)廣告交易計(jì)費(fèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
5 尚勃;Spark平臺(tái)下基于深度學(xué)習(xí)的網(wǎng)絡(luò)短文本情感分類研究[D];西安建筑科技大學(xué);2016年
6 王海華;Spark數(shù)據(jù)處理平臺(tái)中內(nèi)存數(shù)據(jù)空間管理技術(shù)研究[D];北京工業(yè)大學(xué);2016年
7 皮興杰;基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)中等值連接問(wèn)題的優(yōu)化及其應(yīng)用[D];重慶大學(xué);2016年
本文編號(hào):2568968
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2568968.html