天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

統(tǒng)計(jì)模型在中文文本挖掘中的應(yīng)用

發(fā)布時(shí)間:2018-03-17 06:05

  本文選題:中文分詞 切入點(diǎn):關(guān)鍵詞提取 出處:《數(shù)理統(tǒng)計(jì)與管理》2017年04期  論文類(lèi)型:期刊論文


【摘要】:本文討論了中文文本挖掘的三個(gè)問(wèn)題:分詞、關(guān)鍵詞提取和文本分類(lèi)。對(duì)分詞問(wèn)題,介紹了基于層疊隱馬爾可夫模型的ICTCLAS分詞法,以及將詞與詞之間的分隔視為缺失數(shù)據(jù)并用EM算法求解的WDM方法;對(duì)關(guān)鍵詞提取問(wèn)題,提出了貝葉斯因子法,并介紹了使用稀疏回歸的CCS方法;對(duì)文本分類(lèi)問(wèn)題,介紹了根據(jù)關(guān)鍵詞頻率建立分類(lèi)器的方法,以及先建立主題模型再根據(jù)主題概率建立分類(lèi)器的方法。本文通過(guò)兩組文本數(shù)據(jù)對(duì)上述方法進(jìn)行比較,并給出使用建議。
[Abstract]:This paper discusses three problems of Chinese text mining: word segmentation, keyword extraction and text classification. For word segmentation, ICTCLAS word segmentation method based on cascaded hidden Markov model is introduced. The separation between words and words is regarded as missing data and solved by EM algorithm. The Bayesian factor method is proposed for keyword extraction, and the CCS method using sparse regression is introduced. This paper introduces the method of establishing classifier according to the frequency of keywords, and the method of establishing the classifier based on the topic model and the probability of topic first. This paper compares these methods with two groups of text data, and gives some suggestions for their use.
【作者單位】: 北京大學(xué)光華管理學(xué)院;
【分類(lèi)號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 孔翔宇;畢秀春;張曙光;;財(cái)經(jīng)新聞與股市預(yù)測(cè)——基于數(shù)據(jù)挖掘技術(shù)的實(shí)證分析[J];數(shù)理統(tǒng)計(jì)與管理;2016年02期

【共引文獻(xiàn)】

相關(guān)期刊論文 前5條

1 洪亮;李雪思;周莉娜;;領(lǐng)域跨越:數(shù)據(jù)挖掘的應(yīng)用和發(fā)展趨勢(shì)[J];圖書(shū)情報(bào)知識(shí);2017年04期

2 陳云松;嚴(yán)飛;;網(wǎng)絡(luò)輿情是否影響股市行情? 基于新浪微博大數(shù)據(jù)的ARDL模型邊限分析[J];社會(huì);2017年02期

3 王健;張俊妮;;統(tǒng)計(jì)模型在中文文本挖掘中的應(yīng)用[J];數(shù)理統(tǒng)計(jì)與管理;2017年04期

4 王大慶;;基于大數(shù)據(jù)時(shí)代背景下的財(cái)經(jīng)新聞轉(zhuǎn)變探討[J];新聞研究導(dǎo)刊;2016年23期

5 孟雪井;楊亞飛;趙新泉;;財(cái)經(jīng)新聞與股市投資策略研究——基于財(cái)經(jīng)網(wǎng)站的文本挖掘[J];投資研究;2016年08期

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 趙麗麗;趙茜倩;楊娟;王鐵軍;李慶;;財(cái)經(jīng)新聞對(duì)中國(guó)股市影響的定量分析[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2012年07期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張妍;許云峰;張立全;;基于云計(jì)算的中文分詞研究[J];河北科技大學(xué)學(xué)報(bào);2012年03期

2 張茂元,盧正鼎,鄒春燕;一種基于語(yǔ)境的中文分詞方法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年01期

3 程傳鵬;;一種簡(jiǎn)單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2006年03期

4 張博;姜建國(guó);萬(wàn)平國(guó);;對(duì)互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計(jì)算機(jī)應(yīng)用研究;2006年11期

5 夏新松;肖建國(guó);;一種新的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2006年03期

6 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江科技信息;2008年25期

7 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期

8 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期

9 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2009年05期

10 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計(jì)算機(jī)應(yīng)用研究;2009年09期

相關(guān)會(huì)議論文 前10條

1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國(guó)第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國(guó)第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2007年

6 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

8 李壽山;黃居仁;;基于詞邊界分類(lèi)的中文分詞方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

9 張梅山;鄧知龍;車(chē)萬(wàn)翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

10 王屹林;朱慕華;朱靖波;;針對(duì)SVM中文分詞特性的個(gè)性化后處理設(shè)計(jì)[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

相關(guān)博士學(xué)位論文 前4條

1 奚寧;統(tǒng)計(jì)機(jī)器翻譯中的中文分詞策略研究[D];南京大學(xué);2013年

2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2013年

3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

4 李志國(guó);面向分布式文本知識(shí)管理的中文分詞與文本分類(lèi)研究[D];重慶大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 顧輝;基于中文分詞的購(gòu)物中心微信平臺(tái)購(gòu)物導(dǎo)航的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年

2 韓冰;基于感知器算法的中文分詞增量系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

3 杜麗萍;基于互聯(lián)網(wǎng)海量語(yǔ)料的新詞發(fā)現(xiàn)研究及中文分詞系統(tǒng)改進(jìn)[D];西安郵電大學(xué);2015年

4 周祺;基于統(tǒng)計(jì)與詞典相結(jié)合的中文分詞的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年

5 梁喜濤;基于主動(dòng)學(xué)習(xí)的中文分詞方法研究[D];南京郵電大學(xué);2015年

6 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評(píng)論過(guò)濾系統(tǒng)的研究與實(shí)現(xiàn)[D];東南大學(xué);2015年

7 呂先超;視障漢語(yǔ)轉(zhuǎn)換軟件SunBraille的設(shè)計(jì)實(shí)現(xiàn)[D];蘭州大學(xué);2016年

8 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學(xué);2016年

9 梁科;面向中醫(yī)醫(yī)案的數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用[D];山東大學(xué);2016年

10 鄭宗榮;基于實(shí)例的中文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2016年



本文編號(hào):1623458

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1623458.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f16da***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com