《安慶師范學(xué)院》2015年碩士論文
本文關(guān)鍵詞:信息可視化設(shè)計(jì)與公共行為研究,由筆耕文化傳播整理發(fā)布。
《安慶師范學(xué)院》 2015年
農(nóng)業(yè)物聯(lián)網(wǎng)文本數(shù)據(jù)統(tǒng)計(jì)分析
梁輝
【摘要】:隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等信息技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)中積累了大量半結(jié)構(gòu)化和非結(jié)構(gòu)化的文本數(shù)據(jù),如何從這些海量的文本中獲取所需的信息,已經(jīng)成為了統(tǒng)計(jì)分析工作者的一項(xiàng)重要任務(wù)。近年來(lái),隨著人們物質(zhì)生活需求的不斷增長(zhǎng),農(nóng)業(yè)產(chǎn)品的質(zhì)量和產(chǎn)量等問(wèn)題越來(lái)越被重視,以信息和軟件為中心生產(chǎn)模式的農(nóng)業(yè)物聯(lián)網(wǎng)得到了廣泛的應(yīng)用,其實(shí)時(shí)監(jiān)控、遠(yuǎn)程控制和查詢(xún)等功能對(duì)現(xiàn)代農(nóng)業(yè)的發(fā)展具有重要意義,對(duì)農(nóng)業(yè)物聯(lián)網(wǎng)上的文本進(jìn)行挖掘是一件非常有價(jià)值的事情。目前,國(guó)內(nèi)外對(duì)文本挖掘進(jìn)行了大量的研究,文本挖掘的方法日趨完善,文本挖掘的內(nèi)容日漸豐富,其主要在相似性檢測(cè)、文本分類(lèi)和信息獲取等領(lǐng)域,另外,高效直觀(guān)信息圖成為了新型文本內(nèi)容顯示方式,如文字云。本文主要采用農(nóng)業(yè)物聯(lián)網(wǎng)中的文本數(shù)據(jù),從文本相似性和文本文字云兩個(gè)方面展開(kāi)探討和研究。在文本相似性研究方面,本文采用了兩種方法對(duì)文本進(jìn)行相似性分析,一種是結(jié)合關(guān)鍵詞微變的聚類(lèi)和LD算法的方法,首先約簡(jiǎn)文本中的低頻詞,利用LD算法分析詞與詞之間的相似度,建立文本相似度矩陣,然后用特征詞間的相似度及其權(quán)重來(lái)構(gòu)建空間向量,最后計(jì)算文本間的相似度;另一種是結(jié)合閾值優(yōu)化和e EP模式的方法,在獲取文檔特征項(xiàng)頻率分布表之后,首先利用粗糙集聯(lián)合決策分布密度矩陣,計(jì)算最小閾值,提取滿(mǎn)足一定閾值的高頻詞,然后結(jié)合語(yǔ)義分析與逆向文檔頻率方法獲取基于語(yǔ)義類(lèi)內(nèi)文檔頻率的高頻詞,采用e EP模式分類(lèi)法獲得最簡(jiǎn)模式,最后結(jié)合相似性公式和《知網(wǎng)》的語(yǔ)義相關(guān)度,計(jì)算相似程度得分,利用三枝決策理論優(yōu)化閾值。在文本文字云研究方面,本文提出了一種基于統(tǒng)計(jì)分析的文字云和主題模型文本挖掘方法,首先對(duì)文本進(jìn)行移除數(shù)字、去除停用詞等預(yù)處理操作,然后執(zhí)行中文分詞,構(gòu)建語(yǔ)料庫(kù),建立文檔-詞條矩陣,最后以文字云和主題模型的形式呈現(xiàn)挖掘結(jié)果。
【關(guān)鍵詞】:
【學(xué)位授予單位】:安慶師范學(xué)院
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1;F323
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線(xiàn)充值、在線(xiàn)咨詢(xún))
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 林偉;孟凡榮;王志曉;;基于概念特征的語(yǔ)義文本分類(lèi)[J];計(jì)算機(jī)工程與應(yīng)用;2011年28期
2 范明;劉孟旭;趙紅領(lǐng);;一種基于基本顯露模式的分類(lèi)算法[J];計(jì)算機(jī)科學(xué);2004年11期
3 華秀麗;朱巧明;李培峰;;語(yǔ)義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究[J];計(jì)算機(jī)應(yīng)用研究;2012年03期
4 李連;朱愛(ài)紅;蘇濤;;一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2012年02期
5 王毅;唐歆瑜;謝治華;;基于向量空間模型的畢業(yè)論文相似性辨識(shí)研究[J];科學(xué)技術(shù)與工程;2007年09期
6 孫爽;章勇;;一種基于語(yǔ)義相似度的文本聚類(lèi)算法[J];南京航空航天大學(xué)學(xué)報(bào);2006年06期
7 張凌宇;陳淑鑫;張光妲;呂洪柱;;一種基于向量空間模型的模糊本體映射方法[J];計(jì)算機(jī)應(yīng)用研究;2014年05期
8 韓法旺;劉耀宗;;數(shù)據(jù)流分類(lèi)挖掘中的概念變化研究[J];計(jì)算機(jī)科學(xué);2014年S2期
9 朱澤德;李淼;張健;陳雷;曾新華;;基于文本密度模型的Web正文抽取[J];模式識(shí)別與人工智能;2013年07期
10 廖開(kāi)際;楊彬彬;;基于加權(quán)語(yǔ)義網(wǎng)的文本相似度計(jì)算的研究[J];情報(bào)雜志;2012年07期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 胡澤文;;基于WordNet和SUMO本體集成的自動(dòng)語(yǔ)義檢索及可視化模型[J];國(guó)家圖書(shū)館學(xué)刊;2012年02期
2 王慶福;常廣炎;;基于TF-IDF優(yōu)化算法在文本分類(lèi)中的應(yīng)用研究[J];電腦編程技巧與維護(hù);2014年10期
3 程玉勝;梁輝;;文字云及主題模型的統(tǒng)計(jì)挖掘[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年01期
4 任思雨;;數(shù)字時(shí)代數(shù)據(jù)可視化的類(lèi)型及其特征[J];傳播與版權(quán);2014年03期
5 孫程程;李?lèi)?ài)平;黃九鳴;;面向協(xié)調(diào)搜索的文本相似度計(jì)算方法[J];電腦知識(shí)與技術(shù);2014年19期
6 袁曉峰;;基于《知網(wǎng)》的文本相似度研究[J];成都大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期
7 王蕾;;文字云圖在英語(yǔ)閱讀教學(xué)中的應(yīng)用研究[J];讀與寫(xiě)(教育教學(xué)刊);2014年06期
8 張德剛;張德海;吳毅;張少泉;彭慶軍;;面向大數(shù)據(jù)分析的企業(yè)信息化解決方案研究[J];電力信息與通信技術(shù);2014年09期
9 繆坤;郭健;李?lèi)?ài)光;闞映紅;王卉;;地圖的信息表達(dá)與美學(xué)思維[J];測(cè)繪與空間地理信息;2015年01期
10 錢(qián)永杰;曹寶香;;基于垂直搜索引擎的網(wǎng)頁(yè)排序算法研究[J];電子技術(shù);2015年07期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 范明;魏芳;;挖掘基本顯露模式用于分類(lèi)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
2 劉艷霞;范明;;Bagging基于eEP的分類(lèi)器分類(lèi)稀有類(lèi)[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
3 陳崇超;施鴻喜;范明;;集成基于EP的分類(lèi)器用于分類(lèi)數(shù)據(jù)流[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條
1 楊劍鋒;適合并行的無(wú)干預(yù)文檔聚類(lèi)算法研究[D];武漢大學(xué);2010年
2 孫凌云;面向產(chǎn)品概念設(shè)計(jì)的專(zhuān)利地圖技術(shù)研究[D];浙江大學(xué);2008年
3 彭菲菲;網(wǎng)絡(luò)熱點(diǎn)話(huà)題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國(guó)礦業(yè)大學(xué)(北京);2012年
4 胡小妹;信息可視化設(shè)計(jì)與公共行為研究[D];中央美術(shù)學(xué)院;2014年
5 劉松;基于全信息的問(wèn)答系統(tǒng)研究[D];北京郵電大學(xué);2014年
6 牛奉高;數(shù)字文獻(xiàn)資源高維聚合模型研究[D];武漢大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳松峰;利用PCA和AdaBoost建立基于貝葉斯的組合分類(lèi)器[D];鄭州大學(xué);2010年
2 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測(cè)系統(tǒng)研究[D];安徽大學(xué);2010年
3 吳啟綱;中文文本聚類(lèi)算法的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
4 張韋;基于語(yǔ)義的Web主題提取的研究[D];湖北工業(yè)大學(xué);2011年
5 謝鳳宏;基于復(fù)雜網(wǎng)絡(luò)理論的文本聚類(lèi)和關(guān)鍵詞提取方法研究[D];遼寧師范大學(xué);2011年
6 奚婷;搜索引擎結(jié)果的聚類(lèi)系統(tǒng)研究[D];西南交通大學(xué);2011年
7 劉文靜;基于標(biāo)簽詞抽取的搜索結(jié)果聚類(lèi)研究[D];北京郵電大學(xué);2012年
8 趙紅領(lǐng);基于邊界快速求解EPs的算法[D];鄭州大學(xué);2004年
9 魏芳;基本顯露模式的挖掘算法[D];鄭州大學(xué);2005年
10 劉艷霞;基于eEP的稀有類(lèi)分類(lèi)問(wèn)題研究[D];鄭州大學(xué);2005年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 蔣溢;丁優(yōu);熊安萍;王化晶;;一種基于知網(wǎng)的詞匯語(yǔ)義相似度改進(jìn)計(jì)算方法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
2 劉輝;邵良杉;;Web文本分類(lèi)中特征項(xiàng)權(quán)重的研究[J];科技和產(chǎn)業(yè);2010年02期
3 謝翠香;;基于改進(jìn)向量空間模型的學(xué)術(shù)論文相似性辨別系統(tǒng)設(shè)計(jì)[J];電腦知識(shí)與技術(shù);2009年19期
4 席運(yùn)江;黨延忠;;基于加權(quán)知識(shí)網(wǎng)絡(luò)的個(gè)人知識(shí)存量表示與度量方法[J];管理學(xué)報(bào);2007年01期
5 張浩;謝飛;;基于語(yǔ)義關(guān)聯(lián)的文本分類(lèi)研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年10期
6 王濤;李舟軍;顏躍進(jìn);陳火旺;;數(shù)據(jù)流挖掘分類(lèi)技術(shù)綜述[J];計(jì)算機(jī)研究與發(fā)展;2007年11期
7 辛軼;郭躬德;陳黎飛;畢亞新;;IKnnM-DHecoc:一種解決概念漂移問(wèn)題的方法[J];計(jì)算機(jī)研究與發(fā)展;2011年04期
8 李素建;基于語(yǔ)義計(jì)算的語(yǔ)句相關(guān)度研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年07期
9 代六玲,黃河燕,陳肇雄;一種用于文本分類(lèi)的語(yǔ)義SVM及其在線(xiàn)學(xué)習(xí)算法[J];計(jì)算機(jī)工程與應(yīng)用;2004年36期
10 張劍;李春平;;基于WordNet概念向量空間模型的文本分類(lèi)[J];計(jì)算機(jī)工程與應(yīng)用;2006年04期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 沈斌;基于分詞的中文文本相似度計(jì)算研究[D];天津財(cái)經(jīng)大學(xué);2006年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 唐亮;段建國(guó);許洪波;梁玲;;基于信息論的文本分類(lèi)模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年24期
2 施化吉;王賢川;李星毅;;基于規(guī)則重構(gòu)的關(guān)聯(lián)文本分類(lèi)[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年03期
3 劉伍穎;王挺;;適于垃圾文本流過(guò)濾的條件概率集成方法[J];計(jì)算機(jī)科學(xué)與探索;2010年05期
4 張征杰;王自強(qiáng);;文本分類(lèi)及算法綜述[J];電腦知識(shí)與技術(shù);2012年04期
5 彭其華;;關(guān)聯(lián)挖掘下的海量文本信息深入挖掘?qū)崿F(xiàn)[J];微電子學(xué)與計(jì)算機(jī);2013年10期
6 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期
7 王東興,冷惠文;大量編程用文本數(shù)據(jù)的統(tǒng)一處理[J];鞍山鋼鐵學(xué)院學(xué)報(bào);1997年06期
8 周鵬;數(shù)據(jù)庫(kù)中不規(guī)范文本文件的數(shù)據(jù)轉(zhuǎn)換[J];電腦編程技巧與維護(hù);2005年05期
9 谷峰;吳揚(yáng)揚(yáng);;文本分類(lèi)關(guān)鍵技術(shù)[J];福建電腦;2006年09期
10 宋東風(fēng);張志浩;;短文本數(shù)據(jù)的自動(dòng)分類(lèi)[J];電腦與信息技術(shù);2007年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類(lèi)中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂(lè);黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類(lèi)新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂(lè);李文波;;基于上下文圖模型文本表示的文本分類(lèi)研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫(xiě)文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類(lèi)的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開(kāi)創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年
10 江荻;;藏語(yǔ)文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前2條
1 戴洪玲;[N];中國(guó)電腦教育報(bào);2004年
2 山東 黃家貞;[N];電腦報(bào);2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 胡明涵;面向領(lǐng)域的文本分類(lèi)與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
2 孫曉華;基于聚類(lèi)的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問(wèn)題研究[D];哈爾濱工程大學(xué);2010年
3 尚文倩;文本分類(lèi)及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
4 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年
5 熊云波;文本信息處理的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2006年
6 李自強(qiáng);大規(guī)模文本分類(lèi)的若干問(wèn)題研究[D];電子科技大學(xué);2013年
7 楊震;文本分類(lèi)和聚類(lèi)中若干問(wèn)題的研究[D];北京郵電大學(xué);2007年
8 章舜仲;文本分類(lèi)中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年
9 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
10 趙玉茗;文本間語(yǔ)義相關(guān)性計(jì)算及其應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 姜英杰;基于本體的短文本分類(lèi)研究[D];東北師范大學(xué);2010年
2 楊碩;基于VSM文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2006年
3 馬淵;短文本情感分析技術(shù)研究[D];重慶大學(xué);2011年
4 張超;文本OLAP關(guān)鍵技術(shù)研究[D];山東大學(xué);2012年
5 王寶龍;面向新聞?lì)I(lǐng)域的文本數(shù)據(jù)獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年
6 曾洪波;基于類(lèi)別裁剪和模糊理論的文本分類(lèi)算法研究[D];暨南大學(xué);2011年
7 徐立新;互聯(lián)網(wǎng)文本視頻過(guò)濾技術(shù)研究與應(yīng)用[D];電子科技大學(xué);2010年
8 梁鵬鵬;概率主題模型及其在關(guān)聯(lián)文本分類(lèi)中的應(yīng)用研究[D];鄭州大學(xué);2011年
9 劉超;基于主題挖掘和覆蓋的文本分類(lèi)研究[D];安徽大學(xué);2011年
10 蔡月紅;基于類(lèi)短語(yǔ)串和半監(jiān)督學(xué)習(xí)的短文本分類(lèi)研究[D];江蘇大學(xué);2010年
本文關(guān)鍵詞:信息可視化設(shè)計(jì)與公共行為研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):192176
本文鏈接:http://www.sikaile.net/shoufeilunwen/rwkxbs/192176.html