天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

結(jié)合語義擴展和卷積神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法

發(fā)布時間:2018-12-25 17:06
【摘要】:中文新聞標題通常包含一個或幾十個詞,由于字符數(shù)少、特征稀疏,在分類問題中難以提升正確率。為解決此問題,提出了基于Word Embedding的文本語義擴展方法。首先,將新聞標題擴展為(標題、副標題、主題詞)構(gòu)成的三元組,用標題的同義詞結(jié)合詞性過濾方法構(gòu)造副標題,對多尺度滑動窗口內(nèi)的詞進行語義組合,提取主題詞;然后,針對擴展文本構(gòu)造卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類模型,該模型通過max pooling及隨機dropout進行特征過濾及防止過擬合;最后,將標題、副標題拼接為雙詞表示,與多主題詞集分別作為模型的輸入。在2017自然語言處理與中文計算評測(NLPCC2017)的新聞標題分類數(shù)據(jù)集上進行實驗。實驗結(jié)果表明,用三元組擴展結(jié)合相應(yīng)的CNN模型在18個類別新聞標題上分類的正確率為79.42%,比未經(jīng)擴展的CNN模型提高了9.5%,且主題詞擴展加快了模型的收斂速度,驗證了三元組擴展方法及所構(gòu)建CNN分類模型的有效性。
[Abstract]:Chinese news headlines usually contain one or dozens of words. Because of the small number of characters and sparse features, it is difficult to improve the accuracy in classification problems. To solve this problem, a text semantic extension method based on Word Embedding is proposed. Firstly, the news title is extended to a triple (title, subtitle, subject word). The subtitle is constructed by the synonym of the title combined with the method of part of speech filtering, and the words in the multi-scale sliding window are semantically combined to extract the subject word. Then, the (CNN) classification model of convolution neural network is constructed for extended text. The model uses max pooling and random dropout to filter features and prevent over-fitting. Finally, the title and subtitle are spliced into two-word representation, and the multi-subject word set is used as the input of the model. Experiments were carried out on the 2017 Natural language processing and Chinese Computational Evaluation (NLPCC2017) news headline classification data set. The experimental results show that the correct rate of classifying with triple extension and corresponding CNN model on 18 categories of news headlines is 79.42, which is 9.5% higher than that of unexpanded CNN model, and the speed of convergence of the model is accelerated by the expansion of subject words. The validity of the triple extension method and the constructed CNN classification model is verified.
【作者單位】: 重慶理工大學計算機科學與工程學院;
【基金】:國家社會科學基金西部項目(17XXW005) 重慶市教委科學技術(shù)研究項目(KJ1500903)~~
【分類號】:TP183;TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 萬靜;王文聰;易軍凱;;一種基于本體的知識庫語義擴展搜索方法[J];計算機工程;2012年06期

2 曠章輝;王甲海;周雅蘭;;用改進的競爭Hopfield神經(jīng)網(wǎng)絡(luò)求解多邊形近似問題[J];計算機科學;2009年03期

3 高永建 ,吳健康;神經(jīng)網(wǎng)絡(luò)及其識別應(yīng)用簡介[J];電信科學;1990年02期

4 謝國梁;;神經(jīng)網(wǎng)絡(luò):從希望到現(xiàn)實[J];激光與光電子學進展;1991年01期

5 鄭士貴;文獻自動閱讀神經(jīng)網(wǎng)絡(luò)[J];管理科學文摘;1996年08期

6 呂芬;趙生妹;;基于Hopfield神經(jīng)網(wǎng)絡(luò)的噪聲字母識別[J];計算機與信息技術(shù);2005年12期

7 李毅;童紅俊;宋貴寶;李冬;;神經(jīng)網(wǎng)絡(luò)在飛行器航跡仿真計算中的應(yīng)用[J];海軍航空工程學院學報;2006年05期

8 林鋼;;基于SOM神經(jīng)網(wǎng)絡(luò)對潛在客戶的挖掘[J];南寧職業(yè)技術(shù)學院學報;2006年04期

9 楊帆;陳勁杰;唐梅華;陳鑫;;簡論神經(jīng)網(wǎng)絡(luò)在搜索中的應(yīng)用[J];機械管理開發(fā);2008年01期

10 朱紅斌;;LVQ神經(jīng)網(wǎng)絡(luò)在交通事件檢測中的應(yīng)用[J];計算機工程與應(yīng)用;2008年34期

相關(guān)會議論文 前10條

1 陳文新;王長富;戴蓓倩;;基于神經(jīng)網(wǎng)絡(luò)的漢語四聲識別[A];第一屆全國語言識別學術(shù)報告與展示會論文集[C];1990年

2 李睿;李明軍;;一種模糊高斯基神經(jīng)網(wǎng)絡(luò)在數(shù)值逼近上的仿真[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學與技術(shù)應(yīng)用(CACIS)學術(shù)會議論文集(上冊)[C];2006年

3 許旭萍;臧道青;;采用Hopfield神經(jīng)網(wǎng)絡(luò)實施缸蓋表面點陣字符識別[A];第十五屆全國汽車檢測技術(shù)年會論文集[C];2011年

4 朱長春;;神經(jīng)網(wǎng)絡(luò)用于線性時固有系統(tǒng)的廣義狀態(tài)轉(zhuǎn)移矩陣的識別[A];中國工程物理研究院科技年報(1999)[C];1999年

5 王玉斌;李永明;王穎;;用數(shù)據(jù)挖掘和神經(jīng)網(wǎng)絡(luò)技術(shù)預測工程造價[A];第十一屆全國電工數(shù)學學術(shù)年會論文集[C];2007年

6 應(yīng)捷;袁一方;;神經(jīng)網(wǎng)絡(luò)指紋特征點匹配算法的改進[A];2007'中國儀器儀表與測控技術(shù)交流大會論文集(二)[C];2007年

7 謝小良;符卓;;基于Hopfield神經(jīng)網(wǎng)絡(luò)的單周期船舶調(diào)度模型及算法[A];2008年全國開放式分布與并行計算機學術(shù)會議論文集(下冊)[C];2008年

8 陳意;;神經(jīng)網(wǎng)絡(luò)在船舶識別一個應(yīng)用[A];船舶航泊安全的新經(jīng)驗新技術(shù)論文集(上冊)[C];2007年

9 王輝;楊杰;黎明;蔡念;;一種基于神經(jīng)網(wǎng)絡(luò)的圖像復原方法[A];2006年全國光電技術(shù)學術(shù)交流會會議文集(D 光電信息處理技術(shù)專題)[C];2006年

10 賈睿;徐啟強;劉艷;;基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)殼結(jié)構(gòu)近似分析研究[A];第二十一屆全國振動與噪聲高技術(shù)及應(yīng)用學術(shù)會議論文集[C];2008年

相關(guān)重要報紙文章 前1條

1 中國科技大學計算機系 邢方亮;神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)人類大腦[N];計算機世界;2003年

相關(guān)博士學位論文 前10條

1 李曉剛;基于神經(jīng)網(wǎng)絡(luò)的碼垛機器人視覺位姿測量及伺服控制研究[D];北京林業(yè)大學;2015年

2 戶保田;基于深度神經(jīng)網(wǎng)絡(luò)的文本表示及其應(yīng)用[D];哈爾濱工業(yè)大學;2016年

3 沈旭;基于序列深度學習的視頻分析:建模表達與應(yīng)用[D];中國科學技術(shù)大學;2017年

4 諸勇;正交回歸神經(jīng)網(wǎng)絡(luò)及其在控制系統(tǒng)中的應(yīng)用[D];浙江大學;1998年

5 李彥冬;基于卷積神經(jīng)網(wǎng)絡(luò)的計算機視覺關(guān)鍵技術(shù)研究[D];電子科技大學;2017年

6 包姣;基于深度神經(jīng)網(wǎng)絡(luò)的回歸模型及其應(yīng)用研究[D];電子科技大學;2017年

7 田景文;地下油藏的仿真與預測[D];哈爾濱工程大學;2001年

8 彭宏京;基于稀疏RAM的神經(jīng)網(wǎng)絡(luò)及其人臉識別應(yīng)用研究[D];南京航空航天大學;2002年

9 王吉權(quán);BP神經(jīng)網(wǎng)絡(luò)的理論及其在農(nóng)業(yè)機械化中的應(yīng)用研究[D];沈陽農(nóng)業(yè)大學;2011年

10 王鑫;基于表示學習的情感分析關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學;2017年

相關(guān)碩士學位論文 前10條

1 沈連花;英語“go”與朝鮮語“kada”的語義擴展對比分析[D];延邊大學;2016年

2 陳彥至;神經(jīng)網(wǎng)絡(luò)降維算法研究與應(yīng)用[D];華南理工大學;2015年

3 蔡邦宇;人臉識別中單次ERP時空特征分析及其快速檢索的應(yīng)用[D];浙江大學;2015年

4 鄭川;垃圾評論檢測算法的研究[D];西南交通大學;2015年

5 汪濟民;基于卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測和性別識別研究[D];南京理工大學;2015年

6 彭玲玲;基于不確定理論與機器學習的行人檢測[D];長安大學;2015年

7 楊陳東;BP-Fisher判別分析法[D];長安大學;2015年

8 孟鑫;基于Hadoop云平臺下的客流量預測研究[D];長安大學;2015年

9 張勇;深度卷積神經(jīng)網(wǎng)絡(luò)在車牌和人臉檢測領(lǐng)域的應(yīng)用研究[D];鄭州大學;2015年

10 宋璐璐;財經(jīng)職業(yè)技術(shù)學院票務(wù)管理系統(tǒng)的設(shè)計與實現(xiàn)[D];西安工業(yè)大學;2015年

,

本文編號:2391402

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2391402.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c310d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com