基于鏈接特征的視頻廣告過濾技術(shù)
發(fā)布時間:2022-02-14 11:19
隨著互聯(lián)網(wǎng)音視頻網(wǎng)站的蓬勃發(fā)展,這種新型的媒體形式已經(jīng)逐漸開始取代傳統(tǒng)的信息媒體。音視頻網(wǎng)站作為面向全體人民的大眾化服務(wù),所有用戶都可以上傳、分享自己的音視頻信息,這就給監(jiān)管造成了極大的影響和困擾,因此建立一個針對全網(wǎng)音視頻網(wǎng)站的音視頻分析系統(tǒng),從而對其進行全面實時的監(jiān)控,成為了迫切的需求。音視頻分析系統(tǒng)需要實時采集音視頻信息,在采集的過程中需要對搜索到的視頻網(wǎng)頁信息進行過濾,把與分析內(nèi)容無關(guān)的視頻廣告信息過濾掉,從而優(yōu)化系統(tǒng)的整體運行效率,提升系統(tǒng)性能。由于以上原因,需要研究在實時計算環(huán)境下能夠高效、準(zhǔn)確地過濾相關(guān)網(wǎng)頁信息的技術(shù)手段。現(xiàn)有的網(wǎng)頁信息分類手段存在著效率偏低,帶寬占用偏高,實時處理性能差等諸多問題,本文在已有的基于網(wǎng)頁內(nèi)容的網(wǎng)頁分類技術(shù)的基礎(chǔ)上,研究了基于鏈接特征的網(wǎng)頁分類技術(shù),并且結(jié)合了傳統(tǒng)的基于網(wǎng)頁內(nèi)容的方法,給出了一種更適合解決實時網(wǎng)頁分類問題的模型。本文的主要工作包括:(1)研究了基于鏈接特征的網(wǎng)頁分類技術(shù),改進了基于詞語權(quán)重的特征提取方法,通過計算詞語的鏈接相關(guān)頻率來確定該詞語的權(quán)重,該方法可以有效地減少URL切分后的特征維數(shù),提升分類器處理速度,從而實現(xiàn)在實時...
【文章來源】:電子科技大學(xué)四川省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)絡(luò)視頻/手機網(wǎng)絡(luò)視頻用戶規(guī)模
第二章 音視頻分析系統(tǒng)及網(wǎng)頁分類技術(shù)基礎(chǔ)第二章 音視頻分析系統(tǒng)及網(wǎng)頁分類技術(shù)基礎(chǔ)本章主要對本課題依托的音視頻分析系統(tǒng)的架構(gòu)進行介紹,并分析其采集頻網(wǎng)頁的數(shù)據(jù)特性,對目前主流的網(wǎng)頁分類相關(guān)技術(shù)進行了對比分析,最后針視頻分析系統(tǒng)的需求,引出了對基于鏈接特征的網(wǎng)頁分類技術(shù)研究。.1 音視頻分析系統(tǒng)本節(jié)主要對音視頻分析系統(tǒng)的架構(gòu)以及鏈接采集特點進行介紹。2.1.1 音視頻分析系統(tǒng)架構(gòu)音視頻分析系統(tǒng)主要架構(gòu)如圖 2-1 所示:
生成特征向量生成特征向量分類器 分類結(jié)果圖 2-2 網(wǎng)頁分類系統(tǒng)框架2.2 網(wǎng)頁預(yù)處理相關(guān)技術(shù)的預(yù)處理相關(guān)技術(shù)主要包括對網(wǎng)頁 HTML 文檔的處理和針對中。 HTML 文檔處理主要包括三方面的內(nèi)容:網(wǎng)頁去重、噪音鏈接容并清除。對于網(wǎng)頁的預(yù)處理應(yīng)當(dāng)將網(wǎng)頁的特殊 DOM 結(jié)構(gòu)考文檔對象模型的簡寫,是 W3C 組織規(guī)定的一種語言模型和編程示。DOM 在主流的互聯(lián)網(wǎng)應(yīng)用編程中都得到了很好的實現(xiàn),通編程語言有效地訪問、控制和操作網(wǎng)頁的 HTML 文檔。
【參考文獻】:
期刊論文
[1]基于樸素貝葉斯的文本分類研究綜述[J]. 賀鳴,孫建軍,成穎. 情報科學(xué). 2016(07)
[2]基于改進K最近鄰分類算法的不良網(wǎng)頁并行識別[J]. 徐雅斌,李卓,陳俊伊. 計算機應(yīng)用. 2013(12)
[3]基于規(guī)則的網(wǎng)頁分割預(yù)處理算法研究[J]. 彭紅超,童名文,鄒軍華,郝秋紅. 計算機科學(xué). 2013(S2)
[4]網(wǎng)頁去噪:研究綜述[J]. 毛先領(lǐng),何靖,閆宏飛. 計算機研究與發(fā)展. 2010(12)
[5]一種基于預(yù)分類的高效SVM中文網(wǎng)頁分類器[J]. 許世明,武波,馬翠,邸思,徐洪奎,杜如虛. 計算機工程與應(yīng)用. 2010(01)
[6]基于DF和CHI的聯(lián)合特征提取方法及其應(yīng)用[J]. 李玉鑑,周蘭珍,操衛(wèi)平. 北京工業(yè)大學(xué)學(xué)報. 2008(09)
[7]基于結(jié)構(gòu)和鏈接擴展的中文網(wǎng)頁分類研究[J]. 劉菁菁,林鴻飛. 微電子學(xué)與計算機. 2007(09)
[8]組合降維技術(shù)在中文網(wǎng)頁分類中的應(yīng)用[J]. 李新福. 計算機工程與應(yīng)用. 2007(24)
[9]基于SVM的中文網(wǎng)頁分類方法的研究[J]. 牛強,王志曉,陳岱,夏士雄. 計算機工程與設(shè)計. 2007(08)
[10]基于分詞和基于N-Gram的網(wǎng)頁分類系統(tǒng)比較研究[J]. 高偉鋒,劉連芳. 廣西科學(xué)院學(xué)報. 2005(S1)
本文編號:3624455
【文章來源】:電子科技大學(xué)四川省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
網(wǎng)絡(luò)視頻/手機網(wǎng)絡(luò)視頻用戶規(guī)模
第二章 音視頻分析系統(tǒng)及網(wǎng)頁分類技術(shù)基礎(chǔ)第二章 音視頻分析系統(tǒng)及網(wǎng)頁分類技術(shù)基礎(chǔ)本章主要對本課題依托的音視頻分析系統(tǒng)的架構(gòu)進行介紹,并分析其采集頻網(wǎng)頁的數(shù)據(jù)特性,對目前主流的網(wǎng)頁分類相關(guān)技術(shù)進行了對比分析,最后針視頻分析系統(tǒng)的需求,引出了對基于鏈接特征的網(wǎng)頁分類技術(shù)研究。.1 音視頻分析系統(tǒng)本節(jié)主要對音視頻分析系統(tǒng)的架構(gòu)以及鏈接采集特點進行介紹。2.1.1 音視頻分析系統(tǒng)架構(gòu)音視頻分析系統(tǒng)主要架構(gòu)如圖 2-1 所示:
生成特征向量生成特征向量分類器 分類結(jié)果圖 2-2 網(wǎng)頁分類系統(tǒng)框架2.2 網(wǎng)頁預(yù)處理相關(guān)技術(shù)的預(yù)處理相關(guān)技術(shù)主要包括對網(wǎng)頁 HTML 文檔的處理和針對中。 HTML 文檔處理主要包括三方面的內(nèi)容:網(wǎng)頁去重、噪音鏈接容并清除。對于網(wǎng)頁的預(yù)處理應(yīng)當(dāng)將網(wǎng)頁的特殊 DOM 結(jié)構(gòu)考文檔對象模型的簡寫,是 W3C 組織規(guī)定的一種語言模型和編程示。DOM 在主流的互聯(lián)網(wǎng)應(yīng)用編程中都得到了很好的實現(xiàn),通編程語言有效地訪問、控制和操作網(wǎng)頁的 HTML 文檔。
【參考文獻】:
期刊論文
[1]基于樸素貝葉斯的文本分類研究綜述[J]. 賀鳴,孫建軍,成穎. 情報科學(xué). 2016(07)
[2]基于改進K最近鄰分類算法的不良網(wǎng)頁并行識別[J]. 徐雅斌,李卓,陳俊伊. 計算機應(yīng)用. 2013(12)
[3]基于規(guī)則的網(wǎng)頁分割預(yù)處理算法研究[J]. 彭紅超,童名文,鄒軍華,郝秋紅. 計算機科學(xué). 2013(S2)
[4]網(wǎng)頁去噪:研究綜述[J]. 毛先領(lǐng),何靖,閆宏飛. 計算機研究與發(fā)展. 2010(12)
[5]一種基于預(yù)分類的高效SVM中文網(wǎng)頁分類器[J]. 許世明,武波,馬翠,邸思,徐洪奎,杜如虛. 計算機工程與應(yīng)用. 2010(01)
[6]基于DF和CHI的聯(lián)合特征提取方法及其應(yīng)用[J]. 李玉鑑,周蘭珍,操衛(wèi)平. 北京工業(yè)大學(xué)學(xué)報. 2008(09)
[7]基于結(jié)構(gòu)和鏈接擴展的中文網(wǎng)頁分類研究[J]. 劉菁菁,林鴻飛. 微電子學(xué)與計算機. 2007(09)
[8]組合降維技術(shù)在中文網(wǎng)頁分類中的應(yīng)用[J]. 李新福. 計算機工程與應(yīng)用. 2007(24)
[9]基于SVM的中文網(wǎng)頁分類方法的研究[J]. 牛強,王志曉,陳岱,夏士雄. 計算機工程與設(shè)計. 2007(08)
[10]基于分詞和基于N-Gram的網(wǎng)頁分類系統(tǒng)比較研究[J]. 高偉鋒,劉連芳. 廣西科學(xué)院學(xué)報. 2005(S1)
本文編號:3624455
本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/3624455.html
最近更新
教材專著