天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用

發(fā)布時(shí)間:2021-04-17 06:15
  翹課行為反應(yīng)了幕課的質(zhì)量問(wèn)題,也是在線教育的核心問(wèn)題之一。該文通過(guò)對(duì)真實(shí)的在線教育數(shù)據(jù)進(jìn)行分析,結(jié)合在線教育領(lǐng)域的先驗(yàn)知識(shí),針對(duì)數(shù)據(jù)中的豐富海量的特征問(wèn)題,提出了基于XGBoost特征重要度計(jì)算和分類的翹課特征選擇方法,并建立了在線教育的翹課指數(shù)(DOI)。基于學(xué)堂在線數(shù)據(jù)集提取的海量特征的實(shí)證分析表明,基于XGBoost的特征選擇方法比其他經(jīng)典特征選擇方法具有更好的效果。在數(shù)據(jù)集的不同時(shí)間點(diǎn)上使用翹課指數(shù)模型作翹課預(yù)測(cè),驗(yàn)證了翹課指數(shù)的有效性。 

【文章來(lái)源】:電子科技大學(xué)學(xué)報(bào). 2018,47(06)北大核心EICSCD

【文章頁(yè)數(shù)】:6 頁(yè)

【部分圖文】:

基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用


不同F(xiàn)I方法配合不同分類器的性能比較0.740.72050100150200250300350特征數(shù)量c.SVM分類

最優(yōu)子集,特征數(shù),重要度


第6期宋國(guó)琴,等:基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用925分類值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征數(shù)量圖4基于XGBoost特征重要度的最優(yōu)子集表2最優(yōu)特征子集內(nèi)容特征數(shù)量用戶在注冊(cè)課程中的學(xué)習(xí)54最后一天行為用戶在整個(gè)網(wǎng)站的行為4035統(tǒng)計(jì)信息4課程注冊(cè)信息1時(shí)間信息1表3最優(yōu)特征子集表現(xiàn)特征集數(shù)量提取時(shí)間/min分類值所有特征1339400.8998最優(yōu)子集135150.8994其中,重要度最高的特征包含最后一天訪問(wèn)其他課程對(duì)象的用時(shí),最后一天關(guān)閉網(wǎng)頁(yè)的用時(shí)等是非常有指示意義的特征。從表2中可以推斷出,某用戶翹一門課時(shí),在其他同期課程也可能翹課;同時(shí),用戶在課程操作、網(wǎng)站操作上會(huì)有不同表現(xiàn),而且愈臨近翹課越明顯。重點(diǎn)關(guān)注以上方向的趨勢(shì),可在很大程度上主導(dǎo)對(duì)翹課的預(yù)測(cè)。如表3所示,最優(yōu)特征子集只有135個(gè)特征,數(shù)量不到原來(lái)的1/10,而KDDCup2015前10名隊(duì)伍的特征數(shù)量大多在1000以上[5]。因?yàn)樘卣髯蛹瘮?shù)量小,也縮短了特征提取的時(shí)間,而分類性能卻下降極少。4DOI指數(shù)的建立及應(yīng)用在最優(yōu)特征子集上使用XGBoost算法構(gòu)造決策森林,森林中各棵樹(shù)的預(yù)測(cè)值加性求和,再將結(jié)果進(jìn)行邏輯回歸,得到DOI指數(shù)的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F(xiàn)為所有樹(shù)的函數(shù)空間;kf為單棵樹(shù),其中包含了特征到分值的映射。取0.5為DOI指標(biāo)的基準(zhǔn)線,大于0.5表示翹課概率增加,小于0.5表示翹課概率減少。DOI值在0~1范圍內(nèi)變化,偏離0.5的大小表示翹課可能與否的程度。為了在更多時(shí)間點(diǎn)上驗(yàn)證DOI指數(shù),實(shí)驗(yàn)在原數(shù)據(jù)集上以3天

時(shí)間點(diǎn),預(yù)測(cè)結(jié)果,特征子集,課程


第6期宋國(guó)琴,等:基于XGBoost特征選擇的幕課翹課指數(shù)建立及應(yīng)用925分類值(AUC)0.900.890.880.870.8650100150200250300(135,0.8994)特征數(shù)量圖4基于XGBoost特征重要度的最優(yōu)子集表2最優(yōu)特征子集內(nèi)容特征數(shù)量用戶在注冊(cè)課程中的學(xué)習(xí)54最后一天行為用戶在整個(gè)網(wǎng)站的行為4035統(tǒng)計(jì)信息4課程注冊(cè)信息1時(shí)間信息1表3最優(yōu)特征子集表現(xiàn)特征集數(shù)量提取時(shí)間/min分類值所有特征1339400.8998最優(yōu)子集135150.8994其中,重要度最高的特征包含最后一天訪問(wèn)其他課程對(duì)象的用時(shí),最后一天關(guān)閉網(wǎng)頁(yè)的用時(shí)等是非常有指示意義的特征。從表2中可以推斷出,某用戶翹一門課時(shí),在其他同期課程也可能翹課;同時(shí),用戶在課程操作、網(wǎng)站操作上會(huì)有不同表現(xiàn),而且愈臨近翹課越明顯。重點(diǎn)關(guān)注以上方向的趨勢(shì),可在很大程度上主導(dǎo)對(duì)翹課的預(yù)測(cè)。如表3所示,最優(yōu)特征子集只有135個(gè)特征,數(shù)量不到原來(lái)的1/10,而KDDCup2015前10名隊(duì)伍的特征數(shù)量大多在1000以上[5]。因?yàn)樘卣髯蛹瘮?shù)量小,也縮短了特征提取的時(shí)間,而分類性能卻下降極少。4DOI指數(shù)的建立及應(yīng)用在最優(yōu)特征子集上使用XGBoost算法構(gòu)造決策森林,森林中各棵樹(shù)的預(yù)測(cè)值加性求和,再將結(jié)果進(jìn)行邏輯回歸,得到DOI指數(shù)的值。1()11Kkikikfxyfe==∈∑+F(17)式中,F(xiàn)為所有樹(shù)的函數(shù)空間;kf為單棵樹(shù),其中包含了特征到分值的映射。取0.5為DOI指標(biāo)的基準(zhǔn)線,大于0.5表示翹課概率增加,小于0.5表示翹課概率減少。DOI值在0~1范圍內(nèi)變化,偏離0.5的大小表示翹課可能與否的程度。為了在更多時(shí)間點(diǎn)上驗(yàn)證DOI指數(shù),實(shí)驗(yàn)在原數(shù)據(jù)集上以3天

【參考文獻(xiàn)】:
期刊論文
[1]人類行為時(shí)空特性的統(tǒng)計(jì)力學(xué)[J]. 周濤,韓筱璞,閆小勇,楊紫陌,趙志丹,汪秉宏.  電子科技大學(xué)學(xué)報(bào). 2013(04)
[2]基于迭代式RELIEF和相關(guān)向量機(jī)的黃瓜圖像識(shí)別方法[J]. 金理鉆,屠珺,劉成良.  上海交通大學(xué)學(xué)報(bào). 2013(04)
[3]不平衡數(shù)據(jù)的降采樣方法研究[J]. 林舒楊,李翠華,江弋,林琛,鄒權(quán).  計(jì)算機(jī)研究與發(fā)展. 2011(S3)
[4]用修正的RELIEF方法測(cè)量高速空氣流瞬時(shí)速度的理論研究[J]. 鄭義,姚建銓,吳峰,房曉俊,施祥春.  光學(xué)學(xué)報(bào). 1996(08)



本文編號(hào):3142951

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jiaoyulunwen/wangluojiaoyulunwen/3142951.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5ace5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com