基于語(yǔ)義特征和監(jiān)督學(xué)習(xí)的廣告評(píng)論識(shí)別方法
發(fā)布時(shí)間:2021-08-04 09:25
隨著互聯(lián)網(wǎng)的興起與繁榮,人們的在線學(xué)習(xí)娛樂(lè)及交流變得非常便捷高效。計(jì)算機(jī)以及移動(dòng)智能設(shè)備成為了人們工作和交流的主要工具之一。伴隨著互聯(lián)網(wǎng)電腦端及移動(dòng)端用戶(hù)數(shù)量的增長(zhǎng),熱門(mén)網(wǎng)站的用戶(hù)數(shù)量及日點(diǎn)擊率也在迅速升高。作為全球最大的視頻網(wǎng)站,YouTube擁有海量視頻及數(shù)十億活躍制作上傳者及觀看用戶(hù)。由于每一位互聯(lián)網(wǎng)用戶(hù)均可以快速發(fā)表評(píng)論信息,加之YouTube實(shí)行了視頻制作者鼓勵(lì)措施,視頻廣告評(píng)論占比迅速提升,給視頻上傳者和常規(guī)觀眾帶來(lái)許多煩擾,嚴(yán)重干擾了用戶(hù)的正常評(píng)論與交流。基于詞袋的傳統(tǒng)垃圾廣告檢測(cè)算法通常從語(yǔ)句用詞入手,具有特征維度高、模型復(fù)雜等特點(diǎn),而且隨著廣告評(píng)論的升級(jí)也日益顯示出不足。因此本文從語(yǔ)義理解的思路出發(fā),結(jié)合前人工作和理論,提出了基于語(yǔ)義的廣告評(píng)論檢測(cè)方法。此方法首先對(duì)語(yǔ)句進(jìn)行語(yǔ)義角色標(biāo)注,提取語(yǔ)義特征,并手動(dòng)提取常見(jiàn)廣告評(píng)論的句式特征加入到特征集合,進(jìn)行建模試驗(yàn)。通過(guò)實(shí)驗(yàn)反復(fù)驗(yàn)證,此方法有效地降低了訓(xùn)練數(shù)據(jù)的特征維數(shù),并且達(dá)到了較高的檢測(cè)率,在標(biāo)注數(shù)據(jù)集多樣化不足的情況下仍然能夠保持一定的分類(lèi)穩(wěn)定性,因此具有一定的可行性。由于現(xiàn)實(shí)網(wǎng)絡(luò)中,有標(biāo)記的數(shù)據(jù)的獲取比較難,因此本...
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1廣告評(píng)論過(guò)濾流程圖??7??
同時(shí),在每一輪中加入一個(gè)新的弱分類(lèi)器,直到錯(cuò)誤率小于某一特定值或??者迭代次數(shù)達(dá)到達(dá)到指定的最大迭代次數(shù)。??Adaboost的算法流程如圖2.?2所tk:??釣始化謁練數(shù)的V?_么_』??j?.??I?/>j?=?M..…u\?v.\.?i.w?-?—-?1.2……?八??_??-^i? ̄??t?V???I?權(quán)值分布的數(shù)據(jù)集逬:??訓(xùn)練.得到范V分類(lèi)器;??'?:X?—?_??1?——:??汁筇(Ux丨^練數(shù)據(jù)tu.品分矣鉛:)淹'??ct_?-?Pi?Gj?.x?y???-?V/《G「i.O?丈、);??:?r??j??V???i?1-^??=?r-Jog?—??j?-?cw??更新?tīng)柧氈聯(lián)臋?quán)m:??MW“.A》??一?C^..?d)?=■?
含三層結(jié)點(diǎn),而且除了輸入層結(jié)點(diǎn)之外,其它結(jié)點(diǎn)均使用非線性激活函數(shù)。多層??前饋神經(jīng)網(wǎng)絡(luò)的每層神經(jīng)元與下一層神經(jīng)元全互連,神經(jīng)元之間不存在同層連??接,也不存在跨層連接[16],如圖2.?3所示。MLP使用誤差逆?zhèn)鞑ィǎ澹颍颍铮??BackPropagation,BP)算法進(jìn)行數(shù)據(jù)訓(xùn)練。??〇?〇?〇?n,??'\J?w??圖2.3多層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖[15]??2.?4.?4主成分分析??成分分析是用來(lái)在數(shù)據(jù)中尋找“恰當(dāng)”的特征的無(wú)監(jiān)督方法[18]。主成分分析??(Principal?Component?Analysis,?PCA)是一種數(shù)據(jù)壓縮和特征提取的多變量??統(tǒng)計(jì)分析技術(shù),PCA的目標(biāo)是在低維子空間去表示高維數(shù)據(jù),使得在誤差平方和??的意義下低維表示能夠最好地描述原始數(shù)據(jù)[18]。??主成分分析的步驟如圖2.?4所示:??12??
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA模型的博客垃圾評(píng)論發(fā)現(xiàn)[J]. 刁宇峰,楊亮,林鴻飛. 中文信息學(xué)報(bào). 2011(01)
[2]基于貝葉斯方法和信息指紋的博客評(píng)論過(guò)濾[J]. 馬如林,蔣華,張慶霞. 計(jì)算機(jī)工程與應(yīng)用. 2008(24)
[3]一個(gè)基于語(yǔ)義分析的傾向性文檔過(guò)濾系統(tǒng)[J]. 江寶林,劉永丹,金峰,葛家翔,胡運(yùn)發(fā). 計(jì)算機(jī)應(yīng)用與軟件. 2005(01)
碩士論文
[1]微博垃圾評(píng)論識(shí)別方法研究[D]. 蘭丹媚.廣西師范大學(xué) 2017
[2]基于語(yǔ)義的垃圾郵件過(guò)濾技術(shù)的研究[D]. 胡瑋.重慶大學(xué) 2016
[3]基于寫(xiě)作風(fēng)格學(xué)的作者識(shí)別技術(shù)研究[D]. 劉明勇.浙江大學(xué) 2013
[4]短文本語(yǔ)義過(guò)濾技術(shù)的研究[D]. 覃張華.北方工業(yè)大學(xué) 2008
[5]基于內(nèi)容的垃圾郵件過(guò)濾研究[D]. 潘文鋒.中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2004
本文編號(hào):3321447
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1廣告評(píng)論過(guò)濾流程圖??7??
同時(shí),在每一輪中加入一個(gè)新的弱分類(lèi)器,直到錯(cuò)誤率小于某一特定值或??者迭代次數(shù)達(dá)到達(dá)到指定的最大迭代次數(shù)。??Adaboost的算法流程如圖2.?2所tk:??釣始化謁練數(shù)的V?_么_』??j?.??I?/>j?=?M..…u\?v.\.?i.w?-?—-?1.2……?八??_??-^i? ̄??t?V???I?權(quán)值分布的數(shù)據(jù)集逬:??訓(xùn)練.得到范V分類(lèi)器;??'?:X?—?_??1?——:??汁筇(Ux丨^練數(shù)據(jù)tu.品分矣鉛:)淹'??ct_?-?Pi?Gj?.x?y???-?V/《G「i.O?丈、);??:?r??j??V???i?1-^??=?r-Jog?—??j?-?cw??更新?tīng)柧氈聯(lián)臋?quán)m:??MW“.A》??一?C^..?d)?=■?
含三層結(jié)點(diǎn),而且除了輸入層結(jié)點(diǎn)之外,其它結(jié)點(diǎn)均使用非線性激活函數(shù)。多層??前饋神經(jīng)網(wǎng)絡(luò)的每層神經(jīng)元與下一層神經(jīng)元全互連,神經(jīng)元之間不存在同層連??接,也不存在跨層連接[16],如圖2.?3所示。MLP使用誤差逆?zhèn)鞑ィǎ澹颍颍铮??BackPropagation,BP)算法進(jìn)行數(shù)據(jù)訓(xùn)練。??〇?〇?〇?n,??'\J?w??圖2.3多層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖[15]??2.?4.?4主成分分析??成分分析是用來(lái)在數(shù)據(jù)中尋找“恰當(dāng)”的特征的無(wú)監(jiān)督方法[18]。主成分分析??(Principal?Component?Analysis,?PCA)是一種數(shù)據(jù)壓縮和特征提取的多變量??統(tǒng)計(jì)分析技術(shù),PCA的目標(biāo)是在低維子空間去表示高維數(shù)據(jù),使得在誤差平方和??的意義下低維表示能夠最好地描述原始數(shù)據(jù)[18]。??主成分分析的步驟如圖2.?4所示:??12??
【參考文獻(xiàn)】:
期刊論文
[1]基于LDA模型的博客垃圾評(píng)論發(fā)現(xiàn)[J]. 刁宇峰,楊亮,林鴻飛. 中文信息學(xué)報(bào). 2011(01)
[2]基于貝葉斯方法和信息指紋的博客評(píng)論過(guò)濾[J]. 馬如林,蔣華,張慶霞. 計(jì)算機(jī)工程與應(yīng)用. 2008(24)
[3]一個(gè)基于語(yǔ)義分析的傾向性文檔過(guò)濾系統(tǒng)[J]. 江寶林,劉永丹,金峰,葛家翔,胡運(yùn)發(fā). 計(jì)算機(jī)應(yīng)用與軟件. 2005(01)
碩士論文
[1]微博垃圾評(píng)論識(shí)別方法研究[D]. 蘭丹媚.廣西師范大學(xué) 2017
[2]基于語(yǔ)義的垃圾郵件過(guò)濾技術(shù)的研究[D]. 胡瑋.重慶大學(xué) 2016
[3]基于寫(xiě)作風(fēng)格學(xué)的作者識(shí)別技術(shù)研究[D]. 劉明勇.浙江大學(xué) 2013
[4]短文本語(yǔ)義過(guò)濾技術(shù)的研究[D]. 覃張華.北方工業(yè)大學(xué) 2008
[5]基于內(nèi)容的垃圾郵件過(guò)濾研究[D]. 潘文鋒.中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2004
本文編號(hào):3321447
本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/3321447.html
最近更新
教材專(zhuān)著