天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 經(jīng)濟(jì)論文 > 股票論文 >

基于主題模型和實(shí)體識(shí)別的股市熱點(diǎn)概念挖掘

發(fā)布時(shí)間:2020-11-16 20:06
   隨著互聯(lián)網(wǎng)的發(fā)展,推特和微博等社交平臺(tái)的流行,一個(gè)突發(fā)事件會(huì)快速在網(wǎng)絡(luò)上形成熱點(diǎn)話題,如果是和股票相關(guān)的話題,往往會(huì)形成股票概念,話題相關(guān)股票又稱概念股,突發(fā)事件會(huì)對關(guān)聯(lián)股票股價(jià)產(chǎn)生較大的影響。分析事件關(guān)聯(lián)股票往往需要專業(yè)的行業(yè)研究員,普通投資者無法準(zhǔn)確地判斷哪些股票可能受到影響。所有如果有一套完整的系統(tǒng)可以及時(shí)檢測到話題的產(chǎn)生,記錄其發(fā)展過程,并能夠識(shí)別出話題對應(yīng)的股票概念,進(jìn)而基于海量的互聯(lián)網(wǎng)資訊,準(zhǔn)確地挖掘出事件概念股,那么將會(huì)給投資者帶來巨大的幫助。針對上述問題,本文利用主題模型實(shí)現(xiàn)了股市熱點(diǎn)話題檢測與追蹤算法。主題模型采用了經(jīng)典的潛在狄利克雷分配算法,并通過引入組合關(guān)鍵詞提取進(jìn)一步過濾干擾詞;對于聚類話題個(gè)數(shù)的選擇,本文通過最小類間相似度準(zhǔn)則來選取,該方法可以使各個(gè)話題間差異較大,話題可解釋性強(qiáng)。同時(shí)本文提出了話題熱度計(jì)算方法,可以記錄話題發(fā)展過程。股票概念詞通常是一個(gè)和話題極度相關(guān)的詞,概念詞組詞結(jié)構(gòu)沒有明顯規(guī)律,常常是新詞或者特定領(lǐng)域詞,目前的分詞算法無法有效識(shí)別。本文通過組合命名實(shí)體識(shí)別算法和詞粗切分算法來識(shí)別股票概念,首先對基于統(tǒng)計(jì)方法的命名實(shí)體識(shí)別方法和基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別方法進(jìn)行了研究,提出了引入邊界熵,詞向量的神經(jīng)網(wǎng)絡(luò)實(shí)體識(shí)別方法,在公開語料集上達(dá)到了較好的效果,然后本文還提出了一種基于詞粗切分的新詞發(fā)現(xiàn)算法,用于概念名識(shí)別。最終,本文設(shè)計(jì)實(shí)現(xiàn)了基于Web的股市熱點(diǎn)話題檢測及概念股票抽取系統(tǒng)。本系統(tǒng)包括話題檢測與話題熱度走勢監(jiān)控,話題對應(yīng)概念股以及概念走勢監(jiān)測等模塊,可以幫助投資者做決策支持。
【學(xué)位單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:F832.51;TP391.1
【部分圖文】:

滬港,上下游產(chǎn)業(yè),網(wǎng)站,專業(yè)人士


位論文網(wǎng)資訊信息質(zhì)量較差,網(wǎng)頁文本中常常存在很多噪聲以文本特征提取是一個(gè)重要步驟。此外,話題一般經(jīng)歷多任務(wù)是要從新聞流中識(shí)別與己知話題相關(guān)的新報(bào)道,可追蹤,自動(dòng)記錄話題發(fā)展過程有助于進(jìn)一步分析事件與事件的發(fā)展,對股市有重大影響的事件會(huì)形成對應(yīng)的人對于事件的總結(jié),而“概念股”,“龍頭股”則是己經(jīng)影響的股票,龍頭股是很多股民的重點(diǎn)配倉標(biāo)的。目前,比如“同花順”網(wǎng)站,“概念股”網(wǎng)站,中國財(cái)經(jīng)頭概念板塊“滬港通”概念的成分股榜單。??成分股漲跌排行榜??

概率分布,聚類,相似度,對比實(shí)驗(yàn)


第3章基于主題模型的股市熱點(diǎn)話題檢測與追蹤??3.?6.?3結(jié)果對比??實(shí)驗(yàn)一結(jié)果:如圖3.2所示。圖3.2展示了不同關(guān)鍵詞提取個(gè)數(shù)對LDA模型??效果的影響,圖中三條線分別展示了提取關(guān)鍵詞個(gè)數(shù)為10、30、50、80、全部all??(不進(jìn)行關(guān)鍵詞過濾)情況下LDA聚類結(jié)果,由圖可以看出關(guān)鍵詞提取個(gè)數(shù)為??50的情況下為較優(yōu)情況,而提取關(guān)鍵詞個(gè)數(shù)為10情況較差,過少的關(guān)鍵詞扭曲??了原始概率分布,損失了較多的信息,不建議采用;而在關(guān)鍵詞提取個(gè)數(shù)大于50??時(shí),聚類效果有所下降。所以關(guān)鍵詞提取個(gè)數(shù)為50時(shí),聚類效果優(yōu)于其他,建??議選擇提取個(gè)數(shù)為50。??關(guān)鍵字提取個(gè)數(shù)對聚類影響對比實(shí)驗(yàn)??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??關(guān)鍵詞提取個(gè)數(shù)??圖3.2關(guān)鍵字提取個(gè)數(shù)對聚類影響對比實(shí)驗(yàn)??實(shí)驗(yàn)二結(jié)果:基于數(shù)據(jù)集二,本文采用最小主題間平均相似度作為標(biāo)準(zhǔn)確定??最終聚類話題個(gè)數(shù),如圖3.3所示為不同話題個(gè)數(shù)對應(yīng)的平均主題間相似度???以看到當(dāng)話題為35時(shí)

概率分布,聚類,相似度,主題


第3章基于主題模型的股市熱點(diǎn)話題檢測與追蹤??3.?6.?3結(jié)果對比??實(shí)驗(yàn)一結(jié)果:如圖3.2所示。圖3.2展示了不同關(guān)鍵詞提取個(gè)數(shù)對LDA模型??效果的影響,圖中三條線分別展示了提取關(guān)鍵詞個(gè)數(shù)為10、30、50、80、全部all??(不進(jìn)行關(guān)鍵詞過濾)情況下LDA聚類結(jié)果,由圖可以看出關(guān)鍵詞提取個(gè)數(shù)為??50的情況下為較優(yōu)情況,而提取關(guān)鍵詞個(gè)數(shù)為10情況較差,過少的關(guān)鍵詞扭曲??了原始概率分布,損失了較多的信息,不建議采用;而在關(guān)鍵詞提取個(gè)數(shù)大于50??時(shí),聚類效果有所下降。所以關(guān)鍵詞提取個(gè)數(shù)為50時(shí),聚類效果優(yōu)于其他,建??議選擇提取個(gè)數(shù)為50。??關(guān)鍵字提取個(gè)數(shù)對聚類影響對比實(shí)驗(yàn)??0.7????0.65??二:..…??????〇-6?????SSSSWSS4?9??[p|??0.55????—Fi??Y??0.5???10?30?50?80?all??關(guān)鍵詞提取個(gè)數(shù)??圖3.2關(guān)鍵字提取個(gè)數(shù)對聚類影響對比實(shí)驗(yàn)??實(shí)驗(yàn)二結(jié)果:基于數(shù)據(jù)集二,本文采用最小主題間平均相似度作為標(biāo)準(zhǔn)確定??最終聚類話題個(gè)數(shù),如圖3.3所示為不同話題個(gè)數(shù)對應(yīng)的平均主題間相似度???以看到當(dāng)話題為35時(shí)
【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期

2 張海軍;史樹敏;朱朝勇;黃河燕;;中文新詞識(shí)別技術(shù)綜述[J];計(jì)算機(jī)科學(xué);2010年03期



本文編號:2886602

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/jinrongzhengquanlunwen/2886602.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶60cbb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com