基于時間序列的音樂流行趨勢預(yù)測研究
發(fā)布時間:2021-10-17 02:38
在大數(shù)據(jù)環(huán)境下,對音樂及聽眾的歷史數(shù)據(jù)進(jìn)行分析,可以實(shí)現(xiàn)對音樂流行趨勢較為準(zhǔn)確的預(yù)測。在STL、Holt-Winters分解模型的基礎(chǔ)上,提出TSMP算法。該算法從長期趨勢和周期兩方面進(jìn)行分析,對長期趨勢編碼和分類并基于類別最優(yōu)值選擇法對音樂流行趨勢進(jìn)行預(yù)測。基于TSMP算法,進(jìn)而提出E-TSMP算法,該算法基于子序列模式匹配法及對近期發(fā)布新專輯的附加處理,實(shí)現(xiàn)更精準(zhǔn)的預(yù)測。在清華大學(xué)和阿里云天池大數(shù)據(jù)競賽平臺承辦的"2016中國高校計(jì)算機(jī)大賽——大數(shù)據(jù)挑戰(zhàn)賽之阿里音樂流行趨勢預(yù)測"比賽中,參賽團(tuán)隊(duì)?wèi){借提出的E-TSMP算法對2016年9月10月藝人的播放量實(shí)現(xiàn)了較好的預(yù)測,并在此次比賽中奪得亞軍。
【文章來源】:計(jì)算機(jī)工程與科學(xué). 2018,40(09)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
圖1編碼方法Figure1Codingmethod
收錄時間、初始播放量、歌曲語言、歌曲類別等內(nèi)容。只有在提供的眾多信息中提取出有效信息,才能更好地對數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對每個藝人音樂播放量更為精準(zhǔn)的預(yù)測。因此,把信息處理成每個藝人對應(yīng)的日播放量序列、周播放量均值序列、月播放量均值序列及日變化率序列,對數(shù)據(jù)進(jìn)行的預(yù)處理為TSMP算法的實(shí)現(xiàn)奠定了基矗在對每個藝人日播放量曲線進(jìn)行擬合和預(yù)測的過程中,曲線趨勢發(fā)展成為了至關(guān)重要的問題,而重要的外部事件是影響曲線趨勢發(fā)展的一大關(guān)鍵因素,比如:預(yù)測期間藝人發(fā)布新專輯、開演唱會、參加選秀節(jié)目等。在排除外部事件干擾的前提下,計(jì)算每個藝人播放量的月平均值、周平均值、日平均值并進(jìn)行編碼處理,這些編碼處理的均值可以作為每個藝人播放量趨勢的預(yù)測。定義基本趨勢和增量趨勢作為編碼規(guī)則,例如月度編碼:若當(dāng)月播放量均值高于前一月均值,則基本趨勢對應(yīng)的編碼值為1,否則為0;若當(dāng)月播放量均值高于前一月均值,則以當(dāng)月均值除以上月均值的商值取整作為增量趨勢編碼值,否則增量趨勢編碼值為上月均值除以當(dāng)月均值的商值取整。具體編碼過程如圖1所示。Figure1Codingmethod圖1編碼方法根據(jù)月編碼、周編碼、日編碼中的基本趨勢和增量趨勢兩部分,基于k-means聚類算法[12,13],最終將阿里提供的數(shù)據(jù)集劃分成24個基本類別。通過對不同類別進(jìn)行大量測試與分析,最終采用類別最優(yōu)值選擇法對不同類別的藝人進(jìn)行日播放量預(yù)測。類別最優(yōu)值選擇法的思想是:選取時間序列的某個特征值作為其預(yù)測值[14],例如百分位數(shù)、后3天均值、后7日均值等,構(gòu)成的如圖2所示的候選方法預(yù)
Figure3Classificationrules圖3分類規(guī)則TSMP算法,實(shí)現(xiàn)了對9~10月藝人總播放量的預(yù)測,偽代碼如下所示:算法2音樂流行趨勢預(yù)測算法TSMP(U,A,S)輸入:U:3~8月用戶行為數(shù)據(jù)集合;A:藝人基本信息集合;S:候選預(yù)測方法集合。輸出:P:9~10月所有藝人總播放量預(yù)測值。BeginP←0;//設(shè)初始預(yù)測值為0(D,W,M)←PreU(,A);/*把數(shù)據(jù)集U,A預(yù)處理為日、周、月播放量均值序列集D,W,M*/(DT,WT,MT)←CodD(,W,M);/*對數(shù)據(jù)集D,W,M進(jìn)行日、周、月編碼形成編碼序列集DT,WT,MT*/Ck←Sort(DT,WT,MT);/*采用k-means算法對DT,WT,MT進(jìn)行劃分構(gòu)成類別Ck,及與類別對應(yīng)的日播放量序列集DCk*/Forck∈Ckdo//遍歷分類集合Ck←Ck\{ck};Pck←0;/*設(shè)類別ck中所有藝人9~10月總播放量初始值為0*/m←COVSAS(,Dc)k;/*根據(jù)類ck內(nèi)所有藝人日播放量序列Dck中3~8月的日播放量,由COVSA獲得類別ck最優(yōu)預(yù)測方法m*/Pck←mD(c)k;/*預(yù)測類別ck中所有藝人9~10月總播放量Pck*/P←P+Pck;endReturnP;/*輸出9~10月所有藝人總播放量預(yù)測值*/End
【參考文獻(xiàn)】:
期刊論文
[1]ARIMA模型差分階的估計(jì)方法的比較[J]. 李貴斌. 應(yīng)用概率統(tǒng)計(jì). 1994(04)
碩士論文
[1]時間序列建模與模型選擇的應(yīng)用研究[D]. 吳喜.合肥工業(yè)大學(xué) 2006
本文編號:3440952
【文章來源】:計(jì)算機(jī)工程與科學(xué). 2018,40(09)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
圖1編碼方法Figure1Codingmethod
收錄時間、初始播放量、歌曲語言、歌曲類別等內(nèi)容。只有在提供的眾多信息中提取出有效信息,才能更好地對數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對每個藝人音樂播放量更為精準(zhǔn)的預(yù)測。因此,把信息處理成每個藝人對應(yīng)的日播放量序列、周播放量均值序列、月播放量均值序列及日變化率序列,對數(shù)據(jù)進(jìn)行的預(yù)處理為TSMP算法的實(shí)現(xiàn)奠定了基矗在對每個藝人日播放量曲線進(jìn)行擬合和預(yù)測的過程中,曲線趨勢發(fā)展成為了至關(guān)重要的問題,而重要的外部事件是影響曲線趨勢發(fā)展的一大關(guān)鍵因素,比如:預(yù)測期間藝人發(fā)布新專輯、開演唱會、參加選秀節(jié)目等。在排除外部事件干擾的前提下,計(jì)算每個藝人播放量的月平均值、周平均值、日平均值并進(jìn)行編碼處理,這些編碼處理的均值可以作為每個藝人播放量趨勢的預(yù)測。定義基本趨勢和增量趨勢作為編碼規(guī)則,例如月度編碼:若當(dāng)月播放量均值高于前一月均值,則基本趨勢對應(yīng)的編碼值為1,否則為0;若當(dāng)月播放量均值高于前一月均值,則以當(dāng)月均值除以上月均值的商值取整作為增量趨勢編碼值,否則增量趨勢編碼值為上月均值除以當(dāng)月均值的商值取整。具體編碼過程如圖1所示。Figure1Codingmethod圖1編碼方法根據(jù)月編碼、周編碼、日編碼中的基本趨勢和增量趨勢兩部分,基于k-means聚類算法[12,13],最終將阿里提供的數(shù)據(jù)集劃分成24個基本類別。通過對不同類別進(jìn)行大量測試與分析,最終采用類別最優(yōu)值選擇法對不同類別的藝人進(jìn)行日播放量預(yù)測。類別最優(yōu)值選擇法的思想是:選取時間序列的某個特征值作為其預(yù)測值[14],例如百分位數(shù)、后3天均值、后7日均值等,構(gòu)成的如圖2所示的候選方法預(yù)
Figure3Classificationrules圖3分類規(guī)則TSMP算法,實(shí)現(xiàn)了對9~10月藝人總播放量的預(yù)測,偽代碼如下所示:算法2音樂流行趨勢預(yù)測算法TSMP(U,A,S)輸入:U:3~8月用戶行為數(shù)據(jù)集合;A:藝人基本信息集合;S:候選預(yù)測方法集合。輸出:P:9~10月所有藝人總播放量預(yù)測值。BeginP←0;//設(shè)初始預(yù)測值為0(D,W,M)←PreU(,A);/*把數(shù)據(jù)集U,A預(yù)處理為日、周、月播放量均值序列集D,W,M*/(DT,WT,MT)←CodD(,W,M);/*對數(shù)據(jù)集D,W,M進(jìn)行日、周、月編碼形成編碼序列集DT,WT,MT*/Ck←Sort(DT,WT,MT);/*采用k-means算法對DT,WT,MT進(jìn)行劃分構(gòu)成類別Ck,及與類別對應(yīng)的日播放量序列集DCk*/Forck∈Ckdo//遍歷分類集合Ck←Ck\{ck};Pck←0;/*設(shè)類別ck中所有藝人9~10月總播放量初始值為0*/m←COVSAS(,Dc)k;/*根據(jù)類ck內(nèi)所有藝人日播放量序列Dck中3~8月的日播放量,由COVSA獲得類別ck最優(yōu)預(yù)測方法m*/Pck←mD(c)k;/*預(yù)測類別ck中所有藝人9~10月總播放量Pck*/P←P+Pck;endReturnP;/*輸出9~10月所有藝人總播放量預(yù)測值*/End
【參考文獻(xiàn)】:
期刊論文
[1]ARIMA模型差分階的估計(jì)方法的比較[J]. 李貴斌. 應(yīng)用概率統(tǒng)計(jì). 1994(04)
碩士論文
[1]時間序列建模與模型選擇的應(yīng)用研究[D]. 吳喜.合肥工業(yè)大學(xué) 2006
本文編號:3440952
本文鏈接:http://www.sikaile.net/wenyilunwen/qiyueyz/3440952.html
最近更新
教材專著