基于隨機森林的電影票房預測研究
【學位單位】:中國石油大學(北京)
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:J943;O212.1
【部分圖文】:
第 2 章 理論基礎隨機森林模型機森林是機器學習算法之一,該分類器最早由 Breiman[26]提出,、數(shù)據(jù)挖掘等相關領域的分類和回歸預測中,同時可以對自變序[27]。作為一種非參數(shù)的方法,傳統(tǒng)隨機森林可以解決非線性關關系的問題[28],所以其在基因流行病學中非常受歡迎[29]。相設較多,參數(shù)估計數(shù)值不穩(wěn)定的問題,傳統(tǒng)隨機森林方法在這優(yōu)勢,具有對噪聲數(shù)據(jù)容忍性好、不會過度擬合和良好的解釋林是由多個決策樹分類器組合而成。其工作原理為:利用 boot始樣本中抽取多個樣本,對每個 bootstrap 樣本建立決策樹模型決策樹的預測,得出最終的預測結果。隨機森林流程圖如圖 2.
圖 4.1 傳統(tǒng)隨機森林參數(shù)選擇Fig. 4.1 Traditional random forest parameter selection 8 個自變量1 2 8X , X , ,X 中隨機選擇 4 個自變量。每個節(jié)點根據(jù)式(2.21)和式(2.22)求平方和,選取最優(yōu)的分裂。本文取 i 1,2, ,173, j 1,2,3,4。對于隨機選擇的四個變量,分裂點 的選取按照各分類水平依次劃分成兩個分類水平;若裂點 的選取按照定量變量值從小到大排序,然后令每個值為候不同情況下樹分裂所形成節(jié)點的平方和,選擇平方和最小的值裂直到樹的葉子節(jié)點中包含的樣本量為 5。預測樣本tx 的預測為:40011( ) ( )400t i tif x h x
圖 4.2 自變量重要性排序Fig. 4.2 Variable importance order研究中常用的票房預測模型,本節(jié)對模型,對 2017 年 12 部影片進行預型,具體模型如下式:0 1 1 2 2 10 10 + X + X ++ X+ ,Y 代表電影票房收入,自變量中電量,1 2 3X , X ,X 分別代表賀歲檔、暑期首映日票房;6X 代表點映票房;7X ;9X 代表豆瓣評分;10X 代表國產(chǎn)電影
【相似文獻】
相關期刊論文 前10條
1 沈智勇;蘇翀;周揚;沈智威;;一種面向非均衡分類的隨機森林算法[J];計算機與現(xiàn)代化;2018年12期
2 于大海;李金;羅艷虹;劉近春;張巖波;;隨機森林模型和決策樹模型在肝硬化上消化道出血預后中的應用[J];中國衛(wèi)生統(tǒng)計;2019年02期
3 胡蝶;;基于隨機森林的債券違約分析[J];當代經(jīng)濟;2018年03期
4 趙藝淞;楊昆;王保云;黎曉路;;隨機森林在城市不透水面提取中的應用研究[J];云南師范大學學報(自然科學版);2017年03期
5 吳辰文;梁靖涵;王偉;李長生;;一種順序響應的隨機森林:變量預測和選擇[J];小型微型計算機系統(tǒng);2017年08期
6 顧娟;林敏;鞠桂玲;;基于隨機森林回歸的軍械器材需求預測[J];自動化應用;2017年09期
7 劉迎春;陳梅玲;;流式大數(shù)據(jù)下隨機森林方法及應用[J];西北工業(yè)大學學報;2015年06期
8 羅超;;面向高維數(shù)據(jù)的隨機森林算法優(yōu)化探討[J];商;2016年04期
9 楊曉峰;嚴建峰;劉曉升;楊璐;;深度隨機森林在離網(wǎng)預測中的應用[J];計算機科學;2016年06期
10 張強;;隨機森林在居民購房意愿研究中的應用[J];現(xiàn)代經(jīng)濟信息;2016年13期
相關博士學位論文 前10條
1 王曉軍;基于大數(shù)據(jù)的風洞馬赫數(shù)集成建模方法的研究[D];東北大學;2016年
2 王鑫;基于隨機森林的認知網(wǎng)絡頻譜感知算法研究[D];東北大學;2016年
3 姚登舉;面向醫(yī)學數(shù)據(jù)的隨機森林特征選擇及分類方法研究[D];哈爾濱工程大學;2016年
4 黃玥;VANET信息安全問題及異常檢測技術研究[D];吉林大學;2017年
5 倪強;基于隨機前沿和隨機森林法的沿海開發(fā)區(qū)發(fā)展效率研究[D];天津大學;2011年
6 季斌;內蒙古浩布高地區(qū)多金屬礦綜合信息找礦預測研究[D];合肥工業(yè)大學;2017年
7 雷震;隨機森林及其在遙感影像處理中應用研究[D];上海交通大學;2012年
8 金超;基于隨機森林的醫(yī)學影像分割算法研究及應用[D];蘇州大學;2017年
9 李寶富;巨厚礫巖層下回采巷道底板沖擊地壓誘發(fā)機理研究[D];河南理工大學;2014年
10 趙東;基于群智能優(yōu)化的機器學習方法研究及應用[D];吉林大學;2017年
相關碩士學位論文 前10條
1 郭志旺;隨機森林和支持向量機在乳腺癌高維轉錄組數(shù)據(jù)中的應用[D];河北醫(yī)科大學;2019年
2 王藝博;潛周期時間序列建模和預測新方法探究[D];上海交通大學;2017年
3 繆琦;基于隨機森林和支持向量機的糖尿病風險預測方法研究[D];江蘇大學;2019年
4 李勛章;云中心網(wǎng)絡流量分類方法研究[D];桂林電子科技大學;2019年
5 汪娟娟;江西省精準扶貧中的貧困戶識別研究[D];江西財經(jīng)大學;2019年
6 潘夢雪;基于隨機森林的上市公司舞弊風險識別模型研究[D];杭州電子科技大學;2019年
7 王鳴飛;結直腸癌術前N分期的隨機森林預測模型的建立與驗證[D];吉林大學;2019年
8 陳云天;南昌市房價時空分布特征及驅動因素分析[D];江西師范大學;2019年
9 馬江理;現(xiàn)代服務業(yè)發(fā)展及評價研究[D];云南大學;2018年
10 董興軍;隨機森林在P2P網(wǎng)絡借貸借款人信用評估中的應用[D];遼寧大學;2019年
本文編號:2838452
本文鏈接:http://www.sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2838452.html