天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

互聯(lián)網(wǎng)環(huán)境下多源數(shù)據(jù)的特征分析與趨勢預測研究

發(fā)布時間:2020-05-04 18:00
【摘要】:當前互聯(lián)網(wǎng)環(huán)境下,網(wǎng)民越來越習慣于使用搜索引擎查詢自身感興趣的資訊,也會使用微博、論壇等平臺來發(fā)表自己的觀點。網(wǎng)民群體的龐大使得他們在互聯(lián)網(wǎng)留下了大量的行為數(shù)據(jù),這些數(shù)據(jù)蘊含在各個網(wǎng)絡平臺中。用戶在互聯(lián)網(wǎng)留下的行為數(shù)據(jù)具有對現(xiàn)實社會的指導意義,F(xiàn)實中某些指標數(shù)據(jù)往往會因為其統(tǒng)計流程的繁瑣不能及時發(fā)布。而此時互聯(lián)網(wǎng)數(shù)據(jù)卻能夠反映出該類指標數(shù)據(jù)的走向。流感的病例數(shù)已經(jīng)被證明可以通過搜索引擎的搜索頻次進行較為準確的預估。此外,用戶群體在社交網(wǎng)絡留下的動態(tài)數(shù)據(jù)也同樣被研究者們用于預測。綜合上述互聯(lián)網(wǎng)中的多源數(shù)據(jù)來改善現(xiàn)實指標預測的準確度是本文的研究重點。想要利用互聯(lián)網(wǎng)環(huán)境下龐大的用戶行為數(shù)據(jù)必須先篩選出對預測有指導意義的數(shù)據(jù)源。在獲得數(shù)據(jù)之后還需要對數(shù)據(jù)進行特征分析,最后將分析結果用于模型訓練和預測。所以論文的主要工作內容包含如下幾點:(1)研究了互聯(lián)網(wǎng)多源數(shù)據(jù)的采集與特征分析。以流感病例數(shù)的非直接相關互聯(lián)網(wǎng)數(shù)據(jù)為例,設計了一種基于互聯(lián)網(wǎng)多源數(shù)據(jù)的采集與特征分析方案。其中的多源數(shù)據(jù)主要指的是搜索引擎數(shù)據(jù)和社交網(wǎng)絡數(shù)據(jù)。該方法可以很好的篩選與目標主題相關的互聯(lián)網(wǎng)數(shù)據(jù)并獲得其主要特征。(2)提出了一種基于互聯(lián)網(wǎng)多源數(shù)據(jù)的組合預測模型,以流感樣病例數(shù)的預測為例。該模型從互聯(lián)網(wǎng)的不同數(shù)據(jù)源中分別訓練預測模型,再基于得到的預測結果使用GBDT算法作為次級學習器進行集成。該模型具有比只使用單一數(shù)據(jù)源的預測模型更好的預測效果。(3)以九寨溝游客量為例,證明采集分析方案和組合預測模型對其他現(xiàn)實指標數(shù)據(jù)的應用價值。在該實例上,組合預測模型的預測效果依然優(yōu)于只使用單一數(shù)據(jù)源的預測模型。(4)設計并實現(xiàn)了一種互聯(lián)網(wǎng)多源數(shù)據(jù)采集分析系統(tǒng)。并對系統(tǒng)進行了測試,測試結果說明本方案能夠快速采集多源數(shù)據(jù)并訓練模型,可以對模型的擬合及預測效果進行對比分析。綜上所述,本文的主要研究內容是給出了一種基于互聯(lián)網(wǎng)多源數(shù)據(jù)的采集與特征分析方案,并在此基礎上提出了一種基于互聯(lián)網(wǎng)多源數(shù)據(jù)的組合預測模型。
【圖文】:

交叉驗證,思路


圖 2-1 交叉驗證思路常見的交叉驗證種類有:(1)K 折交叉驗證:K 折交叉驗證需要將初始樣本數(shù)據(jù)集劃分為 K 個子樣本數(shù)據(jù)集。其中一個樣本子集作為測試集,其他的樣本子集用于訓練。重復進行 K 此訓練,直到每個子樣本都被預測一次。該方法的優(yōu)點在于它重復利用了隨機生成的子樣本集進行訓練和驗證。其中,,K 常常被取值為 10.(2)保持驗證:也被稱為 hold-out 驗證。該驗證方法其實并沒有交叉的使用數(shù)據(jù),它隨機地選擇樣本劃分測試集與訓練集。(3)留一驗證:保留一個驗證僅使用原始樣本中的一個樣本作為驗證集,而其余的作為訓練數(shù)據(jù)。繼續(xù)該步驟,直到將每個樣品視為驗證數(shù)據(jù)。實際上,這相當于 K 折交叉驗證,其中 K 是原始樣本數(shù)。2.3 趨勢預測相關技術

模型,泛化誤差,主要思想,測試集


圖 2-2Boosting 集成學習方法(2)Bagging:Bagging(bootstrapaggregating)是通過結合幾個模型降低泛化誤差的技術,主要思想是分別訓練幾個不同的模型,然后讓所有模型給出測試樣例的輸出。該方法利用了模型平均這一特性,不同的模型往往不會在測試集上產生完全相同的誤差。該算法大致思路如下圖 2-3 所示。
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.3

【參考文獻】

相關期刊論文 前4條

1 丁兆云;賈焰;周斌;;微博數(shù)據(jù)挖掘研究綜述[J];計算機研究與發(fā)展;2014年04期

2 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學學報(自然科學版);2011年10期

3 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡爬蟲技術的研究[J];電腦知識與技術;2010年15期

4 劉洋;馮玉強;邵真;;基于Bagging與決策樹算法的在線拍賣成交價格預測模型[J];系統(tǒng)工程理論與實踐;2009年12期

相關博士學位論文 前1條

1 田野;基于微博平臺的事件趨勢分析及預測研究[D];武漢大學;2012年



本文編號:2648778

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2648778.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶4161d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com