【摘要】:數(shù)據(jù)是提取有效信息、制定科學(xué)決策、驅(qū)動(dòng)農(nóng)業(yè)現(xiàn)代化發(fā)展的重要力量。我國(guó)是農(nóng)業(yè)大國(guó),農(nóng)業(yè)在國(guó)民經(jīng)濟(jì)中處于基礎(chǔ)地位,悠久的農(nóng)業(yè)歷史使我國(guó)在生產(chǎn)、流通、消費(fèi)等各個(gè)環(huán)節(jié)中都積累了豐富的數(shù)據(jù)。近年來(lái),隨著農(nóng)業(yè)現(xiàn)代化進(jìn)程加快及鄉(xiāng)村振興戰(zhàn)略的提出,各種信息技術(shù)快速涌入農(nóng)業(yè)領(lǐng)域,農(nóng)業(yè)數(shù)據(jù)量呈現(xiàn)爆炸性增長(zhǎng)態(tài)勢(shì)。我國(guó)農(nóng)業(yè)目前因信息技術(shù)滯后、數(shù)據(jù)涵蓋面廣、數(shù)據(jù)源復(fù)雜、與時(shí)空密切相關(guān)、生產(chǎn)周期長(zhǎng)的特點(diǎn),數(shù)據(jù)質(zhì)量問(wèn)題層出不窮,數(shù)據(jù)集中不僅存在許多一般的異常數(shù)據(jù),還存在許多看似正常,實(shí)則產(chǎn)生于完全不同機(jī)制的異常數(shù)據(jù),數(shù)據(jù)分析工作面臨著“數(shù)據(jù)豐富、信息貧乏”的困境。在大數(shù)據(jù)時(shí)代,既無(wú)法杜絕異常數(shù)據(jù)的產(chǎn)生,也難以通過(guò)技術(shù)手段將其消除。因此,構(gòu)建異常數(shù)據(jù)檢驗(yàn)?zāi)P?從數(shù)據(jù)集中挖掘出看似正常實(shí)則異常的數(shù)據(jù),找出其背后隱含的信息,并加以利用,力求制定出更多科學(xué)決策具有重要意義。本文以兩個(gè)異常數(shù)據(jù)檢驗(yàn)工具——Benford定律、SVR為基礎(chǔ),構(gòu)建了Benford-SVR異常數(shù)據(jù)檢驗(yàn)?zāi)P?分析了農(nóng)業(yè)自然領(lǐng)域的降水量數(shù)據(jù)集和社會(huì)領(lǐng)域生產(chǎn)數(shù)據(jù)集,豐富了我國(guó)農(nóng)業(yè)數(shù)據(jù)異常檢驗(yàn)的理論和技術(shù)手段,展望了異常數(shù)據(jù)檢驗(yàn)?zāi)P臀磥?lái)的發(fā)展方向。首先,本文從研究背景和意義展開,以提高異常檢驗(yàn)的效率和準(zhǔn)確率為目的進(jìn)行了相關(guān)方法研究,選擇了Benford定律和SVR兩個(gè)異常數(shù)據(jù)挖掘有效工具,闡述了Benford定律以數(shù)據(jù)集首位數(shù)為1-9的概率滿足的一個(gè)固定對(duì)數(shù)分布的特點(diǎn)篩選異常數(shù)據(jù)池的基本原理,以及SVR有強(qiáng)大的非線性映射能力,能從整體上考慮回歸曲線的平滑性,不傾向于消除個(gè)別大的回歸誤差的異常點(diǎn)挖掘的方法;其次,針對(duì)Benford定律篩選異常數(shù)據(jù)集效率高,但范圍略大,而SVR挖掘異常數(shù)據(jù)點(diǎn)精度高、魯棒性高,但主要面向小樣本的特點(diǎn),借助于組合模型的思想,構(gòu)建了Benford-SVR異常數(shù)據(jù)檢驗(yàn)?zāi)P?該模型在Benford定律篩選出異常數(shù)據(jù)池的基礎(chǔ)上,選定高質(zhì)量數(shù)據(jù)集作為SVR的訓(xùn)練樣本,異常數(shù)據(jù)池中的數(shù)據(jù)作為預(yù)測(cè)樣本,從中挖掘異常數(shù)據(jù);再次,用Benford-SVR異常數(shù)據(jù)檢驗(yàn)?zāi)P蛯?duì)我國(guó)65年降水量數(shù)據(jù)集、河北省7個(gè)市4年生產(chǎn)數(shù)據(jù)集進(jìn)行實(shí)證分析,得出我國(guó)降水量數(shù)據(jù)集整體及局部質(zhì)量都較高,而河北省滄州、邯鄲、邢臺(tái)數(shù)據(jù)集質(zhì)量較好,而保定、石家莊、唐山、張家口數(shù)據(jù)集可疑,并從中挖掘出異常較大的數(shù)據(jù)點(diǎn);最后,根據(jù)實(shí)證分析結(jié)果,指出了Benford-SVR異常數(shù)據(jù)檢驗(yàn)?zāi)P褪菣z驗(yàn)農(nóng)業(yè)自然科學(xué)領(lǐng)域及社會(huì)科學(xué)領(lǐng)域的有效方法,快速準(zhǔn)確的挖掘出數(shù)據(jù)集中的異常數(shù)據(jù)點(diǎn),但無(wú)監(jiān)督學(xué)習(xí)模式會(huì)存在偶然性誤差,后續(xù)工作中要對(duì)異常數(shù)據(jù)點(diǎn)加以識(shí)別,力求能挖掘其背后隱含的有效信息。本文研究結(jié)果表明:Benford-SVR異常數(shù)據(jù)檢驗(yàn)?zāi)P湍苡行z驗(yàn)自然科學(xué)領(lǐng)域的降水量數(shù)據(jù)集、社會(huì)科學(xué)領(lǐng)域的生產(chǎn)數(shù)據(jù)集,高效、精準(zhǔn)的挖掘其中異常數(shù)據(jù)點(diǎn),優(yōu)勢(shì)顯著。未來(lái)的發(fā)展需要各領(lǐng)域?qū)W者深入研究其本質(zhì),加強(qiáng)對(duì)其它算法的研究結(jié)合,進(jìn)而改善、拓展其應(yīng)用,加強(qiáng)農(nóng)業(yè)數(shù)據(jù)異常挖掘的效率和精度,提高農(nóng)業(yè)領(lǐng)域的數(shù)據(jù)利用率,促進(jìn)農(nóng)業(yè)發(fā)展。
【學(xué)位授予單位】:中國(guó)農(nóng)業(yè)科學(xué)院
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP274.2;S126
【圖文】:
圖 2. 2 最優(yōu)分類平面Fig. 2.2 Optimal classification plane分類中樣本滿足 f(x) ≥ 1 ,則 f(x)=1 為距分離平面最近所有樣本進(jìn)行分類則應(yīng)滿足公式: ( · ) 1 ≥ 0, = 1,··· ,n min 2就是分類間隔最大,12min 2是最優(yōu)分類

圖 2. 4 SVR 核函數(shù)變換Fig.2.4 SVR kernel function transformation中,我們知道任意滿足 Mercer 定理的函數(shù)都可以作為核函數(shù),從而核函數(shù)有有以下 4 種:式核函數(shù):K(x, ) = ( , ) , ∈ , ≥ 0

圖 3. 1 二維數(shù)據(jù)空間中的異常點(diǎn)示例3.1An example of outliers in a two-dimensional data sp和 N2是兩個(gè)樣本集,它們包含了大部分?jǐn)?shù)據(jù),但是中的點(diǎn)距離較遠(yuǎn),單獨(dú)聚為一類,這些點(diǎn)一般成為被集異常、上下文異常,具體含義為:
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳建寨;張建華;孔繁濤;;中國(guó)糧食生產(chǎn)與消費(fèi)的空間格局演變[J];農(nóng)業(yè)技術(shù)經(jīng)濟(jì);2015年11期
2 許世衛(wèi);王東杰;李哲敏;;大數(shù)據(jù)推動(dòng)農(nóng)業(yè)現(xiàn)代化應(yīng)用研究[J];中國(guó)農(nóng)業(yè)科學(xué);2015年17期
3 吳建寨;沈辰;王盛威;張建華;孔繁濤;;中國(guó)蔬菜生產(chǎn)空間集聚演變、機(jī)制、效應(yīng)及政策應(yīng)對(duì)[J];中國(guó)農(nóng)業(yè)科學(xué);2015年08期
4 Saeid Shokri;Mohammad Taghi Sadeghi;Mahdi Ahmadi Marvast;Shankar Narasimhan;;Improvement of the prediction performance of a soft sensor model based on support vector regression for production of ultra-low sulfur diesel[J];Petroleum Science;2015年01期
5 項(xiàng)前;徐蘭;劉彬;呂志軍;楊建國(guó);;基于粗糙集與支持向量機(jī)的加工過(guò)程異常檢測(cè)[J];計(jì)算機(jī)集成制造系統(tǒng);2015年09期
6 許世衛(wèi);;農(nóng)業(yè)大數(shù)據(jù)與農(nóng)產(chǎn)品監(jiān)測(cè)預(yù)警[J];中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào);2014年05期
7 丁立中;賈磊;廖士中;;支持向量學(xué)習(xí)的多參數(shù)同時(shí)調(diào)節(jié)[J];軟件學(xué)報(bào);2014年09期
8 翁鋼民;李凌雁;;旅游客流量預(yù)測(cè):基于季節(jié)調(diào)整的PSO-SVR模型研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
9 劉云霞;曾五一;;關(guān)于綜合利用Benford法則與其他方法評(píng)估統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的進(jìn)一步研究[J];統(tǒng)計(jì)研究;2013年08期
10 劉祖建;陳冰;陳蔚燁;王春霞;梁盛銘;陳觀浩;;廣東省西南部稻飛虱發(fā)生期和發(fā)生程度的氣象預(yù)測(cè)模型[J];中國(guó)農(nóng)業(yè)氣象;2013年02期
相關(guān)碩士學(xué)位論文 前2條
1 趙子;數(shù)據(jù)挖掘算法研究及其在處方分析系統(tǒng)的應(yīng)用[D];南京理工大學(xué);2017年
2 黃雯;數(shù)據(jù)挖掘算法及其應(yīng)用研究[D];南京郵電大學(xué);2013年
本文編號(hào):
2779887
本文鏈接:http://www.sikaile.net/kejilunwen/nykj/2779887.html