天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于卷積神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)分析

發(fā)布時(shí)間:2018-03-13 12:07

  本文選題:卷積神經(jīng)網(wǎng)絡(luò) 切入點(diǎn):word2vec 出處:《長(zhǎng)春工業(yè)大學(xué)》2017年碩士論文 論文類型:學(xué)位論文


【摘要】:在互聯(lián)網(wǎng)上的文本信息量飛速增長(zhǎng)的同時(shí),人們對(duì)互聯(lián)網(wǎng)上的論文文獻(xiàn)進(jìn)行查閱和整理所需要耗費(fèi)的時(shí)間也越來(lái)越多。在這種背景下,利用文本聚類技術(shù)來(lái)對(duì)海量的文獻(xiàn)進(jìn)行分類整理,具有非常重要的應(yīng)用前景與研究意義。文本聚類是文本挖掘的一項(xiàng)重要技術(shù),能夠廣泛應(yīng)用于文本挖掘與信息檢索等方面,在大規(guī)模文本集的組織與瀏覽、文本集層級(jí)歸類的自動(dòng)生成方面都具有重要的應(yīng)用價(jià)值。文本聚類的首要問(wèn)題是如何將文本數(shù)據(jù)以數(shù)學(xué)形式表示出來(lái),同時(shí)傳統(tǒng)的文本聚類算法忽略了文本中單詞之間的語(yǔ)義相關(guān)性,以及傳統(tǒng)聚類算法存在聚類結(jié)果不穩(wěn)定等問(wèn)題。本文主要是針對(duì)以上問(wèn)題對(duì)文本聚類進(jìn)行研究。本文使用搜狗中文語(yǔ)料庫(kù)、復(fù)旦大學(xué)中文語(yǔ)料庫(kù)和哈爾濱工業(yè)大學(xué)中文語(yǔ)料庫(kù)中的中文文本數(shù)據(jù)作為實(shí)驗(yàn)的數(shù)據(jù)集,通過(guò)利用word2vec工具對(duì)文本數(shù)據(jù)做詞向量轉(zhuǎn)化、利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本數(shù)據(jù)進(jìn)行特征提取以及利用基于K-means改進(jìn)的KSDM聚類算法對(duì)文本數(shù)據(jù)進(jìn)行聚類,達(dá)到對(duì)論文文獻(xiàn)聚類的目的。本文主要工作如下:1、本文首先探討了文本聚類算法的研究意義及國(guó)內(nèi)外研究現(xiàn)狀;分析了當(dāng)前傳統(tǒng)的文本聚類算法存在的不足;2、研究了常用的幾種文本聚類算法,卷積神經(jīng)網(wǎng)絡(luò)的基本原理,以及詞向量的轉(zhuǎn)變和word2vec工具的基本原理。3、設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的文本特征提取方法。搭建了卷積神經(jīng)網(wǎng)絡(luò)模型,選取了卷積神經(jīng)網(wǎng)絡(luò)的各項(xiàng)參數(shù)。通過(guò)實(shí)驗(yàn)驗(yàn)證本文設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)的文本特征提取方法的有效性。4、設(shè)計(jì)了基于k-means改進(jìn)的KSDM聚類算法。在傳統(tǒng)的K-means算法的基礎(chǔ)上,針對(duì)其自身的不足提出了一種新的孤立點(diǎn)檢測(cè)算法和一種新的聚類中心選取算法。實(shí)驗(yàn)結(jié)果證明了KSDM算法的有效性。5、在理論研究的基礎(chǔ)上,將word2vec工具、卷積神經(jīng)網(wǎng)絡(luò)和KSDM聚類算法相結(jié)合,提出了基于卷積神經(jīng)網(wǎng)絡(luò)的文獻(xiàn)分析框架。首先需要對(duì)文本數(shù)據(jù)進(jìn)行分詞、去除停用詞、以及詞向量轉(zhuǎn)化等預(yù)處理過(guò)程,然后將得到詞向量存儲(chǔ)到向量矩陣中并輸入到預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)中來(lái)提取文本特征,最后,將得到的特征輸入到KSDM聚類算法中進(jìn)行聚類,已實(shí)現(xiàn)對(duì)測(cè)試文獻(xiàn)聚類。實(shí)驗(yàn)結(jié)果驗(yàn)證,本文算法有效的提高了現(xiàn)有的文本聚類算法的準(zhǔn)確度,并且具有較高的擴(kuò)展性和靈活性。
[Abstract]:With the rapid growth of text information on the Internet, it takes more and more time for people to consult and organize the papers and documents on the Internet. Text clustering is an important technology in text mining, which can be widely used in text mining and information retrieval. The organization and browsing of large-scale text sets and the automatic generation of text set classification have important application value. The most important problem of text clustering is how to express the text data in mathematical form. At the same time, the traditional text clustering algorithm ignores the semantic correlation between the words in the text. And the traditional clustering algorithm has some problems, such as the instability of clustering results. This paper mainly focuses on the research of text clustering in view of the above problems. The Chinese text data in the Chinese Corpus of Fudan University and the Chinese Corpus of Harbin Polytechnic University are used as the experimental data sets, and the word vector transformation of the text data is done by using word2vec tool. Using convolutional neural network to extract the feature of text data, and using the improved KSDM clustering algorithm based on K-means to cluster the text data. The main work of this paper is as follows: 1. Firstly, this paper discusses the significance of text clustering algorithm and the research status at home and abroad. This paper analyzes the shortcomings of the traditional text clustering algorithms and studies the basic principle of convolution neural network. Based on the transformation of word vector and the basic principle of word2vec tool, a text feature extraction method based on convolutional neural network is designed, and a convolutional neural network model is built. The parameters of the convolutional neural network are selected. The effectiveness of the text feature extraction method based on convolutional neural network is verified by experiments. Finally, an improved KSDM clustering algorithm based on k-means is designed, which is based on the traditional K-means algorithm. A new outlier detection algorithm and a new clustering center selection algorithm are proposed to overcome its shortcomings. The experimental results show that the KSDM algorithm is effective. 5. On the basis of theoretical research, a new word2vec tool is proposed. Combining convolutional neural network with KSDM clustering algorithm, a document analysis framework based on convolutional neural network is proposed. Then the obtained word vector is stored in the vector matrix and input into the pre-trained convolution neural network to extract the text features. Finally, the obtained features are input into the KSDM clustering algorithm for clustering. The experimental results show that the proposed algorithm can effectively improve the accuracy of the existing text clustering algorithms and has a high scalability and flexibility.
【學(xué)位授予單位】:長(zhǎng)春工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1;TP183

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 云中客;新的神經(jīng)網(wǎng)絡(luò)來(lái)自于仿生學(xué)[J];物理;2001年10期

2 唐春明,高協(xié)平;進(jìn)化神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展[J];系統(tǒng)工程與電子技術(shù);2001年10期

3 李智;一種基于神經(jīng)網(wǎng)絡(luò)的煤炭調(diào)運(yùn)優(yōu)化方法[J];長(zhǎng)沙鐵道學(xué)院學(xué)報(bào);2003年02期

4 程科,王士同,楊靜宇;新型模糊形態(tài)神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年21期

5 王凡,孟立凡;關(guān)于使用神經(jīng)網(wǎng)絡(luò)推定操作者疲勞的研究[J];人類工效學(xué);2004年03期

6 周麗暉;從統(tǒng)計(jì)角度看神經(jīng)網(wǎng)絡(luò)[J];統(tǒng)計(jì)教育;2005年06期

7 趙奇 ,劉開(kāi)第 ,龐彥軍;灰色補(bǔ)償神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];微計(jì)算機(jī)信息;2005年14期

8 袁婷;;神經(jīng)網(wǎng)絡(luò)在股票市場(chǎng)預(yù)測(cè)中的應(yīng)用[J];軟件導(dǎo)刊;2006年05期

9 尚晉;楊有;;從神經(jīng)網(wǎng)絡(luò)的過(guò)去談科學(xué)發(fā)展觀[J];重慶三峽學(xué)院學(xué)報(bào);2006年03期

10 楊鐘瑾;;神經(jīng)網(wǎng)絡(luò)的過(guò)去、現(xiàn)在和將來(lái)[J];青年探索;2006年04期

相關(guān)會(huì)議論文 前10條

1 徐春玉;;基于泛集的神經(jīng)網(wǎng)絡(luò)的混沌性[A];1996中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1996年

2 周樹(shù)德;王巖;孫增圻;孫富春;;量子神經(jīng)網(wǎng)絡(luò)[A];2003年中國(guó)智能自動(dòng)化會(huì)議論文集(上冊(cè))[C];2003年

3 羅山;張琳;范文新;;基于神經(jīng)網(wǎng)絡(luò)和簡(jiǎn)單規(guī)劃的識(shí)別融合算法[A];2009系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年

4 郭愛(ài)克;馬盡文;丁康;;序言(二)[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年

5 鐘義信;;知識(shí)論:神經(jīng)網(wǎng)絡(luò)的新機(jī)遇——紀(jì)念中國(guó)神經(jīng)網(wǎng)絡(luò)10周年[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年

6 許進(jìn);保錚;;神經(jīng)網(wǎng)絡(luò)與圖論[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年

7 金龍;朱詩(shī)武;趙成志;陳寧;;數(shù)值預(yù)報(bào)產(chǎn)品的神經(jīng)網(wǎng)絡(luò)釋用預(yù)報(bào)應(yīng)用[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年

8 田金亭;;神經(jīng)網(wǎng)絡(luò)在中學(xué)生創(chuàng)造力評(píng)估中的應(yīng)用[A];第十二屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2009年

9 唐墨;王科俊;;自發(fā)展神經(jīng)網(wǎng)絡(luò)的混沌特性研究[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第七分冊(cè))[南京理工大學(xué)學(xué)報(bào)(增刊)][C];2009年

10 張廣遠(yuǎn);萬(wàn)強(qiáng);曹海源;田方濤;;基于遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的故障診斷方法研究[A];第十二屆全國(guó)設(shè)備故障診斷學(xué)術(shù)會(huì)議論文集[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 美國(guó)明尼蘇達(dá)大學(xué)社會(huì)學(xué)博士 密西西比州立大學(xué)國(guó)家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護(hù)好創(chuàng)新的“神經(jīng)網(wǎng)絡(luò)硬件”[N];中國(guó)教師報(bào);2014年

2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計(jì)算機(jī)世界;2001年

3 葛一鳴 路邊文;人工神經(jīng)網(wǎng)絡(luò)將大顯身手[N];中國(guó)紡織報(bào);2003年

4 中國(guó)科技大學(xué)計(jì)算機(jī)系 邢方亮;神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)人類大腦[N];計(jì)算機(jī)世界;2003年

5 記者 孫剛;“神經(jīng)網(wǎng)絡(luò)”:打開(kāi)復(fù)雜工藝“黑箱”[N];解放日?qǐng)?bào);2007年

6 本報(bào)記者 劉霞;美用DNA制造出首個(gè)人造神經(jīng)網(wǎng)絡(luò)[N];科技日?qǐng)?bào);2011年

7 健康時(shí)報(bào)特約記者  張獻(xiàn)懷;干細(xì)胞移植:修復(fù)受損的神經(jīng)網(wǎng)絡(luò)[N];健康時(shí)報(bào);2006年

8 劉力;我半導(dǎo)體神經(jīng)網(wǎng)絡(luò)技術(shù)及應(yīng)用研究達(dá)國(guó)際先進(jìn)水平[N];中國(guó)電子報(bào);2001年

9 ;神經(jīng)網(wǎng)絡(luò)和模糊邏輯[N];世界金屬導(dǎo)報(bào);2002年

10 鄒麗梅 陳耀群;江蘇科大神經(jīng)網(wǎng)絡(luò)應(yīng)用研究通過(guò)鑒定[N];中國(guó)船舶報(bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 楊旭華;神經(jīng)網(wǎng)絡(luò)及其在控制中的應(yīng)用研究[D];浙江大學(xué);2004年

2 李素芳;基于神經(jīng)網(wǎng)絡(luò)的無(wú)線通信算法研究[D];山東大學(xué);2015年

3 石艷超;憶阻神經(jīng)網(wǎng)絡(luò)的混沌性及幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)的同步研究[D];電子科技大學(xué);2014年

4 王新迎;基于隨機(jī)映射神經(jīng)網(wǎng)絡(luò)的多元時(shí)間序列預(yù)測(cè)方法研究[D];大連理工大學(xué);2015年

5 付愛(ài)民;極速學(xué)習(xí)機(jī)的訓(xùn)練殘差、穩(wěn)定性及泛化能力研究[D];中國(guó)農(nóng)業(yè)大學(xué);2015年

6 李輝;基于粒計(jì)算的神經(jīng)網(wǎng)絡(luò)及集成方法研究[D];中國(guó)礦業(yè)大學(xué);2015年

7 王衛(wèi)蘋;復(fù)雜網(wǎng)絡(luò)幾類同步控制策略研究及穩(wěn)定性分析[D];北京郵電大學(xué);2015年

8 張海軍;基于云計(jì)算的神經(jīng)網(wǎng)絡(luò)并行實(shí)現(xiàn)及其學(xué)習(xí)方法研究[D];華南理工大學(xué);2015年

9 李艷晴;風(fēng)速時(shí)間序列預(yù)測(cè)算法研究[D];北京科技大學(xué);2016年

10 陳輝;多維超精密定位系統(tǒng)建模與控制關(guān)鍵技術(shù)研究[D];東南大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 章穎;混合不確定性模塊化神經(jīng)網(wǎng)絡(luò)與高校效益預(yù)測(cè)的研究[D];華南理工大學(xué);2015年

2 賈文靜;基于改進(jìn)型神經(jīng)網(wǎng)絡(luò)的風(fēng)力發(fā)電系統(tǒng)預(yù)測(cè)及控制研究[D];燕山大學(xué);2015年

3 李慧芳;基于憶阻器的渦卷混沌系統(tǒng)及其電路仿真[D];西南大學(xué);2015年

4 陳彥至;神經(jīng)網(wǎng)絡(luò)降維算法研究與應(yīng)用[D];華南理工大學(xué);2015年

5 董哲康;基于憶阻器的組合電路及神經(jīng)網(wǎng)絡(luò)研究[D];西南大學(xué);2015年

6 武創(chuàng)舉;基于神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[D];昆明理工大學(xué);2015年

7 李志杰;基于神經(jīng)網(wǎng)絡(luò)的上證指數(shù)預(yù)測(cè)研究[D];華南理工大學(xué);2015年

8 陳少吉;基于神經(jīng)網(wǎng)絡(luò)血壓預(yù)測(cè)研究與系統(tǒng)實(shí)現(xiàn)[D];華南理工大學(xué);2015年

9 張韜;幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析[D];渤海大學(xué);2015年

10 邵雪瑩;幾類時(shí)滯不確定神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性分析[D];渤海大學(xué);2015年

,

本文編號(hào):1606318

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/1606318.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2dd35***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com