基于貝葉斯算法的垃圾彈幕過濾方法的研究
【圖文】:
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文垃圾彈幕過濾問題的核心是要區(qū)分開正常彈幕和垃圾彈幕,彈幕同郵件和短信,也是由漢子,字母,,符號,數(shù)字等組合而成的具有一定意義的文本對象,所以彈幕的判斷問題歸根到底還是文本分類的問題。文本分類是由計算機(jī)按照一定類體系或標(biāo)準(zhǔn),對文本內(nèi)容所屬類別進(jìn)行自動預(yù)測的方法[32]。想要判斷一條彈否是垃圾彈幕,首先要對該條彈幕去除所有與文本內(nèi)容無關(guān)的無效標(biāo)記,如一些符號,數(shù)字和特殊符號,留下彈幕文本中的純文字?jǐn)?shù)據(jù)。然后進(jìn)行中文分詞,由幕中可能會出現(xiàn)一些如“的”“啊”等一些虛詞或是連詞,所以對分出來的詞要停用詞過濾,留下一些和語義關(guān)聯(lián)較大的詞。最后通過剩下的詞所表現(xiàn)的特征,分類算法對該條彈幕進(jìn)行分類,判斷其是屬于正常彈幕還是垃圾彈幕。文本分類程圖如圖 2-1 所示。
arest Neighbor)是一種采用測量不同特征之間在一個已經(jīng)訓(xùn)練好的樣本數(shù)據(jù)集合,并且該樣本新輸入一個未知類別的對象時,將新數(shù)據(jù)所有的比較,然后提取出樣本中與新數(shù)據(jù)特征距離最多數(shù)屬于哪一類則把新數(shù)據(jù)分到該類[33]。類場景如圖 2-2 所示,已經(jīng)有一個樣本數(shù)據(jù)集在有一個新的圓形數(shù)據(jù)想要判斷其是屬于三角本集合里的其他數(shù)據(jù)的特征距離用兩個數(shù)據(jù)之形特征距離最近的是 2 個三角形和 1 個矩形, k 選擇 5 的話,與圓形特征距離最近的是 2 個三類成矩形。因此可以看出 k 近鄰算法對 k 值非果。另外,每當(dāng)有一個新數(shù)據(jù)需要進(jìn)行分類時的特征距離,計算量較大。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.3;TP18
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張曜多;;彈幕視頻的流行研究[J];傳媒國際評論;2015年00期
2 王宗楚;;試論彈幕語言對網(wǎng)絡(luò)劇和電視劇的影響[J];蘭州教育學(xué)院學(xué)報;2019年12期
3 朱士蓉;薛趙紅;;網(wǎng)絡(luò)學(xué)習(xí)視域下彈幕用戶的動機(jī)及其行為研究[J];宿州學(xué)院學(xué)報;2019年11期
4 葛承志;;鑒定好劇,請看第三集“彈幕”[J];上海廣播電視研究;2019年03期
5 周曉輝;;好彈幕軟件在形勢與政策課堂教學(xué)中的應(yīng)用研究[J];當(dāng)代教育實踐與教學(xué)研究;2020年02期
6 柯雪;趙楠;彭韌;;移動閱讀應(yīng)用中“文本彈幕”的交互體驗研究[J];科技傳播;2020年02期
7 熊曉慶;高尚;;經(jīng)典影視劇的淪陷:彈幕狂歡下的審美嬗變及倫理反思[J];電影文學(xué);2018年22期
8 高沛?zhèn)?;彈幕視頻特性與受眾互動行為探析[J];傳播與版權(quán);2018年11期
9 賀成;;別讓彈幕把熒屏搞得烏煙瘴氣[J];聲屏世界;2018年11期
10 孫振虎;趙甜;;參與式文化視角下的彈幕視頻分析[J];當(dāng)代傳播;2018年06期
相關(guān)會議論文 前9條
1 孫佳山;林品;高寒凝;;彈幕——數(shù)碼時代的文化消費與媒介使用[A];青年文藝論壇(第五十九期):彈幕:數(shù)碼時代的文化消費與媒介使用[C];2016年
2 劉nrnr;張德勝;黃元汛;;網(wǎng)絡(luò)體育彈幕手的參與特征及平臺管理研究[A];第十一屆全國體育科學(xué)大會論文摘要匯編[C];2019年
3 劉靈豫;王軍鋒;;彈幕視頻觀看體驗要素設(shè)計研究[A];工業(yè)設(shè)計研究(第六輯)[C];2018年
4 楊芬霞;賀薈蓉;;彈幕視頻網(wǎng)站侵權(quán)問題思考——以嗶哩嗶哩網(wǎng)為例[A];傳媒法與法治新聞研究[C];2016年
5 許新芝;黃冠;;“互聯(lián)網(wǎng)+”視閾下的高校課堂參與模式構(gòu)建——以彈幕為手段的課堂參與模式研究[A];傳媒法與法治新聞研究[C];2016年
6 段朝輝;陳瑩瑩;羅Z^梅;洪建中;;在線視頻課程學(xué)習(xí)中的互動模式與個性化研究(2):彈幕、彈題與反饋和論壇研究[A];第二十屆全國心理學(xué)學(xué)術(shù)會議--心理學(xué)與國民心理健康摘要集[C];2017年
7 吳年繼;;從嗶哩嗶哩彈幕評論看天文科學(xué)傳播的三種視頻形態(tài)[A];中國科普理論與實踐探索——第二十三屆全國科普理論研討會論文集[C];2016年
8 ;2018年世界杯盤點——球迷的理性與狂歡 2018年[A];艾瑞咨詢系列研究報告(2018年第7期)[C];2018年
9 雷靜;;不忘初心 走好新時代長征路[A];中國教育干部網(wǎng)絡(luò)學(xué)院——高校學(xué)生黨支部書記培訓(xùn)成果匯編(2019)[C];2019年
相關(guān)重要報紙文章 前10條
1 北京外國語大學(xué)漢語言文字學(xué)專業(yè)碩士研究生 劉美麗;“彈幕”來襲[N];語言文字報;2020年
2 子知;對彈幕“先審后播”不能小視[N];中國文化報;2019年
3 本報記者 韓丹東 本報實習(xí)生 李戀潔;先審后播有利于規(guī)范彈幕內(nèi)容[N];法制日報;2019年
4 記者 徐顥哲;短視頻彈幕將實行“先審后播”[N];北京日報;2019年
5 本報記者 徐佩玉;彈幕語言,多元也要有規(guī)范[N];人民日報海外版;2019年
6 記者 魏蔚;B站、A站、斗魚、虎牙暫停彈幕功能[N];北京商報;2019年
7 本報記者 鐘菡;“彈幕”透露爆款?讀影評成為普遍興趣[N];解放日報;2019年
8 IT時報記者 李蘊(yùn)坤;在彈幕“大佬”B站上玩游戲[N];IT時報;2019年
9 陳曦;彈幕教學(xué)讓學(xué)生成為課堂的主人[N];科技日報;2019年
10 蔣威;我看學(xué)生發(fā)“彈幕”[N];兵團(tuán)日報(漢);2019年
相關(guān)博士學(xué)位論文 前3條
1 段朝輝;活動理論視角下在線視頻學(xué)習(xí)中不同學(xué)習(xí)風(fēng)格者的交互活動模式及作用機(jī)制[D];華中師范大學(xué);2018年
2 呂廣奕;面向用戶生成數(shù)據(jù)的深度語義表征技術(shù)與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2019年
3 何明;面向在線視頻彈幕數(shù)據(jù)的挖掘方法研究[D];中國科學(xué)技術(shù)大學(xué);2018年
相關(guān)碩士學(xué)位論文 前10條
1 武曉玲;娛樂類網(wǎng)絡(luò)脫口秀彈幕研究[D];黑龍江大學(xué);2019年
2 鄭展;基于貝葉斯算法的垃圾彈幕過濾方法的研究[D];華中科技大學(xué);2019年
3 郭絲;嗶哩嗶哩網(wǎng)站特色研究[D];黑龍江大學(xué);2019年
4 胡興;青年亞文化視角下的彈幕研究[D];江西師范大學(xué);2019年
5 潘天敏;彈幕在旅游社交服務(wù)中的應(yīng)用與設(shè)計[D];上海交通大學(xué);2016年
6 羅驍;基于分布式爬蟲的用戶評論分析系統(tǒng)[D];南京郵電大學(xué);2018年
7 陳格;青年亞文化視角下的彈幕視頻探析[D];北京印刷學(xué)院;2019年
8 張思渝;基于彈幕的翻轉(zhuǎn)課堂模式重構(gòu)研究[D];云南大學(xué);2018年
9 段煉;面向彈幕文本的情感分析研究[D];重慶郵電大學(xué);2019年
10 吳燕;互動視角下彈幕視頻網(wǎng)站研究[D];遼寧大學(xué);2019年
本文編號:2711750
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2711750.html