天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 證券論文 >

融合頻繁項(xiàng)集和潛在語義分析的股評論壇主題發(fā)現(xiàn)方法

發(fā)布時間:2020-10-19 09:26
   針對股評論壇主題發(fā)現(xiàn),提出基于頻繁項(xiàng)集與潛在語義相結(jié)合的短文本聚類(STC_FL)框架.在基于知網(wǎng)的知識獲取后得到概念向量空間,挖掘并篩選出重要頻繁項(xiàng)集,然后采用統(tǒng)計(jì)和潛在語義相結(jié)合的方法進(jìn)行重要頻繁項(xiàng)集的自適應(yīng)聚類.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通過參數(shù)調(diào)優(yōu)策略選擇和控制文本軟聚類過程.股吧論壇數(shù)據(jù)實(shí)證分析發(fā)現(xiàn):所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潛在語義信息,并有效降低特征空間維度,最終實(shí)現(xiàn)對短文本的深層次信息挖掘和主題歸類.
【部分圖文】:

潛在語義,頻繁項(xiàng)集,短文,聚類


第4期張濤,等:融合頻繁項(xiàng)集和潛在語義分析的股評論壇主題發(fā)現(xiàn)方法2面向股評論壇的主題發(fā)現(xiàn)新框架為解決現(xiàn)有主題挖掘方法處理網(wǎng)絡(luò)股評論壇中短文本數(shù)據(jù)所存在的困難,構(gòu)建一種面向股評論壇主題發(fā)現(xiàn)的短文本聚類框架.利用頻繁項(xiàng)集與潛在語義相結(jié)合的STC_FL框架從在線股評抽取主題詞,再使用TSC-SN算法基于主題詞進(jìn)行文本檢索,從而實(shí)現(xiàn)特有的股評文本聚類,如圖1所示.知網(wǎng)(HowNet)是以揭示概念與概念之間和概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫.針對文本中所蘊(yùn)含的潛在語義關(guān)系,引入知網(wǎng)作為背景知識庫建立基于概念的向量空間,并在文本集相似度計(jì)算的基礎(chǔ)上,采用基于統(tǒng)計(jì)和潛在語義相結(jié)合的度量模式.通過較長頻繁項(xiàng)集預(yù)估主題個數(shù),以解決聚類結(jié)果數(shù)目的最優(yōu)設(shè)定.針對融合頻繁項(xiàng)集與潛在語義關(guān)系的文本軟聚類,在文本檢索階段對TSC-SN算法設(shè)置短文本與主題簇間相似度閾值與簇間非重疊度參數(shù),靈活選擇和控制文本與主題間的對應(yīng)關(guān)系.采用頻繁項(xiàng)集和概念映射來降低向量空間維度,彌補(bǔ)基于向量空間的聚類所存在的語義缺失問題;融合頻繁項(xiàng)集與潛在語義,有效降低特征空間維度的同時充分考慮潛在語義關(guān)系;在對主題詞相關(guān)文本進(jìn)行檢索時控制短文本與主題簇間相似度閾值,同時引入簇間非重疊度概念,利用新型文本集劃分策略實(shí)現(xiàn)文本軟聚類.圖1基于頻繁項(xiàng)集和潛在語義的短文本聚類基本框架Fig.1Basicframeworkofshorttextclusteringbasedonfrequentitem-setsan

頻繁項(xiàng)集,最小支持度,百分比


特征空間的概念數(shù)為19075,特征空間維度縮減58.9%,有效緩解概念向量空間表示中所存在的高維度問題.3.1重要參數(shù)設(shè)置3.1.1重要頻繁項(xiàng)集數(shù)的參數(shù)分析為通過頻繁項(xiàng)集過濾策略獲得比較完整與冗余性低的重要頻繁項(xiàng)集集合,特別分析最小支持度min_sup和頻繁項(xiàng)集間的Jaccard系數(shù)最大相似度α與重要頻繁項(xiàng)集個數(shù)的關(guān)系,分別設(shè)置α的不同取值,觀測每個取值下過濾后的重要頻繁項(xiàng)集數(shù)與最小支持度min_sup之間的變化規(guī)律,如圖4所示.由圖4可知,在α的不同設(shè)置中,過濾后的頻繁項(xiàng)集占頻繁項(xiàng)集總數(shù)的百分比均不超過20%,有利于提高頻繁項(xiàng)集聚類的效率.為挖掘出更多的頻繁項(xiàng)集,這里將min_sup設(shè)置較低,由此可得到大量包含主題信息的頻繁項(xiàng)集,再通過過濾策略得到高質(zhì)圖4過濾后頻繁項(xiàng)集所占百分比與最小支持度的關(guān)系Fig.4Relationshipbetweenfrequentitem-setsproportionandminimumsupportdegreeafterfiltering量的重要頻繁項(xiàng)集.過濾策略的方法復(fù)雜度低,不會增加過多的時間消耗.α設(shè)置越高,過濾后的重要頻繁項(xiàng)集所占百分比越高.當(dāng)α取值為0.4與0.5時,重要頻繁項(xiàng)集的百分比相差較;當(dāng)α取值為0.6時,重要頻繁項(xiàng)集的百分比顯著增大.這主要是因?yàn)榛冢疲校纾颍铮鳎簦杷惴ㄍ诰颢@取的頻繁項(xiàng)集中包含大量3-項(xiàng)集.當(dāng)α取值為0.4或0.5時,兩個3-

頻繁項(xiàng)集,短文,聚類,申購


藍(lán)籌、ETF、申購、匯金藍(lán)籌、ETF、1200億、申購藍(lán)籌、ETF、申購、護(hù)盤7暫停IPO國務(wù)院、IPO、暫停、新股國務(wù)院、IPO、暫停、A股國務(wù)院、IPO、暫停、A股注:ETF為交易型開放式指數(shù)基金;IPO為首次公開募股.3.2.2文本聚類通過計(jì)算文本與頻繁項(xiàng)集簇中主題詞之間的相似度,將文本劃分至相似度最高的主題詞簇下,圍繞2015年股市大幅下跌前后的評論數(shù)據(jù)進(jìn)行文本聚類,部分聚類結(jié)果如圖5所示.圖5基于頻繁項(xiàng)集的短文本聚類部分結(jié)果Fig.5Resultsofshorttextclusteringbasedonfrequentitem-sets985
【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 楊震;王來濤;賴英旭;;基于改進(jìn)語義距離的網(wǎng)絡(luò)評論聚類研究[J];軟件學(xué)報;2014年12期

2 曹麗娜;唐錫晉;;基于主題模型的BBS話題演化趨勢分析[J];管理科學(xué)學(xué)報;2014年11期

3 蔡淑琴;張靜;王旸;馬玉濤;林勇;;基于中心化的微博熱點(diǎn)發(fā)現(xiàn)方法[J];管理學(xué)報;2012年06期

4 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報;2011年08期

5 劉青磊;顧小豐;;基于《知網(wǎng)》的詞語相似度算法研究[J];中文信息學(xué)報;2010年06期


【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 馮妍;徐浩;王以新;劉新橋;張佩雪;張淼淼;;不穩(wěn)定型心絞痛基于主題模型的不同兼癥及合并病中醫(yī)治療方案優(yōu)化方法研究[J];中國醫(yī)藥;2017年01期

2 孫國超;徐碩;喬曉東;;主題模型可視化研究綜述[J];情報工程;2015年06期

3 王小玉;董誠;曾文;;科技政策語義分析方法研究[J];情報工程;2015年06期

4 葉川;馬靜;;多媒體微博評論信息的主題發(fā)現(xiàn)算法研究[J];現(xiàn)代圖書情報技術(shù);2015年11期

5 杜海燕;葉光輝;;社交博客用戶分層與話題演化研究——以MetaFilter Music版塊為例[J];信息資源管理學(xué)報;2015年04期

6 肖璐;唐曉波;;基于句子成分的微博熱點(diǎn)主題挖掘模型研究[J];情報科學(xué);2015年11期

7 王忠群;皇蘇斌;修宇;張義;;基于領(lǐng)域?qū)<液蜕唐诽卣鞲拍顦涞脑诰商品評論深刻性度量[J];現(xiàn)代圖書情報技術(shù);2015年09期

8 唐曉波;肖璐;;基于依存句法分析的微博主題挖掘模型研究[J];情報科學(xué);2015年09期

9 吳曉娜;嚴(yán)建峰;劉曉升;;基于動態(tài)先驗(yàn)的LDA模型消息傳遞算法[J];計(jì)算機(jī)應(yīng)用與軟件;2015年08期

10 趙陽;徐田華;;基于文本挖掘的高鐵信號系統(tǒng)車載設(shè)備故障診斷[J];鐵道學(xué)報;2015年08期


【二級參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 尤薇佳;李紅;劉魯;;突發(fā)事件Web信息傳播渠道信任比較研究[J];管理科學(xué)學(xué)報;2014年02期

2 石大文;張暉;;基于LDA模型的BBS話題演化[J];工業(yè)控制計(jì)算機(jī);2012年05期

3 胡艷麗;白亮;張維明;;網(wǎng)絡(luò)輿情中一種基于OLDA的在線話題演化方法[J];國防科技大學(xué)學(xué)報;2012年01期

4 楊震;賴英旭;段立娟;李玉鑑;;基于上下文重構(gòu)的短文本情感極性判別研究[J];自動化學(xué)報;2012年01期

5 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報;2011年08期

6 劉宇鵬;李生;趙鐵軍;;基于WordNet詞義消歧的系統(tǒng)融合[J];自動化學(xué)報;2010年11期

7 唐錫晉;;兩個定性綜合集成支持技術(shù)[J];系統(tǒng)工程理論與實(shí)踐;2010年09期

8 楊鋒;彭勤科;徐濤;;基于隨機(jī)網(wǎng)絡(luò)的在線評論情緒傾向性分類[J];自動化學(xué)報;2010年06期

9 馬旭;徐蔚然;郭軍;胡日勒;;SMS-2008標(biāo)注中文短信息庫[J];中文信息學(xué)報;2009年04期

10 楊震;范科峰;雷建軍;郭軍;;基于語義的文本流形研究[J];電子學(xué)報;2009年03期


【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李廣璞;黃妙華;;頻繁項(xiàng)集挖掘的研究進(jìn)展及主流方法[J];計(jì)算機(jī)科學(xué);2018年S2期

2 陳鳳娟;;不確定數(shù)據(jù)中的代表頻繁項(xiàng)集近似挖掘[J];計(jì)算機(jī)與數(shù)字工程;2017年02期

3 陳瑤;桂峰;盧超;王華;;基于頻繁項(xiàng)集挖掘算法的伴隨車應(yīng)用與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2017年04期

4 闞寶朋;崔利;;基于漸近取樣的頻繁項(xiàng)集挖掘近似算法[J];控制工程;2017年09期

5 翟悅;郭楊;王玉姣;;一種利用差集的加權(quán)頻繁項(xiàng)集挖掘算法[J];遼寧工程技術(shù)大學(xué)學(xué)報(自然科學(xué)版);2016年03期

6 黃紅星;;挖掘完全頻繁項(xiàng)集的蟻群算法[J];微電子學(xué)與計(jì)算機(jī);2014年12期

7 李揮劍;;大數(shù)據(jù)環(huán)境下頻繁項(xiàng)集挖掘的研究[J];青島科技大學(xué)學(xué)報(自然科學(xué)版);2015年02期

8 黃朝輝;;不確定數(shù)據(jù)頻繁項(xiàng)集挖掘方法探析[J];莆田學(xué)院學(xué)報;2014年02期

9 吳建章;韓立新;曾曉勤;;一種基于多核微機(jī)的閉頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)應(yīng)用與軟件;2013年03期

10 陳小玉;楊艷燕;劉克成;朱顥東;;基于改進(jìn)倒排表和集合的最頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)應(yīng)用研究;2012年06期


相關(guān)博士學(xué)位論文 前10條

1 屈俊峰;頻繁項(xiàng)集與高可用項(xiàng)集挖掘算法及其性能研究[D];武漢大學(xué);2013年

2 溫磊;基于有向項(xiàng)集圖的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用[D];天津大學(xué);2004年

3 賈彩燕;關(guān)聯(lián)規(guī)則挖掘的取樣復(fù)雜性分析[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年

4 鄭曉艷;頻繁模式挖掘技術(shù)研究及其在供應(yīng)鏈管理中的應(yīng)用[D];天津大學(xué);2010年

5 孫崇敬;面向?qū)傩耘c關(guān)系的隱私保護(hù)數(shù)據(jù)挖掘理論研究[D];電子科技大學(xué);2014年

6 譚軍;面向產(chǎn)品持續(xù)質(zhì)量控制的數(shù)據(jù)挖掘技術(shù)與應(yīng)用研究[D];中南大學(xué);2013年

7 陳湘;基于基集和概念格的數(shù)據(jù)挖掘方法研究[D];電子科技大學(xué);2011年

8 董杰;基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類研究[D];大連理工大學(xué);2009年

9 吳學(xué)雁;金融時間序列模式挖掘方法的研究[D];華南理工大學(xué);2010年

10 毛伊敏;數(shù)據(jù)流頻繁模式挖掘關(guān)鍵算法及其應(yīng)用研究[D];中南大學(xué);2011年


相關(guān)碩士學(xué)位論文 前10條

1 胡涵宇;基于動態(tài)散列和事務(wù)壓縮的頻繁項(xiàng)集挖掘的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2018年

2 何鎮(zhèn)宏;并行頻繁項(xiàng)集挖掘算法研究[D];四川師范大學(xué);2018年

3 牛晨晨;數(shù)據(jù)流頻繁項(xiàng)集挖掘算法研究[D];蘭州財(cái)經(jīng)大學(xué);2018年

4 杜斐陽;基于Spark的并行頻繁項(xiàng)集挖掘算法研究及應(yīng)用[D];華中師范大學(xué);2018年

5 夏儒斐;基于頻繁項(xiàng)集關(guān)聯(lián)的海量中文文本聚類系統(tǒng)及其在Spark平臺的實(shí)現(xiàn)[D];華南理工大學(xué);2018年

6 梅建強(qiáng);析取空間中頻繁項(xiàng)集精簡表示模型研究[D];合肥工業(yè)大學(xué);2018年

7 陳龍;支持差分隱私的頻繁項(xiàng)集挖掘算法研究[D];華中科技大學(xué);2017年

8 馬強(qiáng);基于Hadoop云平臺的頻繁項(xiàng)集算法的研究與實(shí)現(xiàn)[D];湖南大學(xué);2014年

9 王杰;數(shù)據(jù)智能分析及其應(yīng)用研究[D];江南大學(xué);2019年

10 劉朋;混合個性化推薦方法研究[D];北方工業(yè)大學(xué);2018年



本文編號:2847028

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/zhqtouz/2847028.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7b8e9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com