基于內(nèi)嵌字幕的近似視頻網(wǎng)頁去重研究與實現(xiàn)
發(fā)布時間:2017-10-13 01:08
本文關(guān)鍵詞:基于內(nèi)嵌字幕的近似視頻網(wǎng)頁去重研究與實現(xiàn)
更多相關(guān)文章: 近似視頻網(wǎng)頁 內(nèi)嵌字幕 去重 LCS
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,大量網(wǎng)頁內(nèi)容的重復(fù)給人們帶來了不便。在過去的十多年中,在線視頻量呈指數(shù)增長,越來越多的人參與到了video-related活動,用戶花在視頻采集、編輯、上傳、搜索以及查看的時間達到了空前水平。大規(guī)模的視頻發(fā)布和分享,也使得近似重復(fù)內(nèi)容頻現(xiàn)的現(xiàn)象加重。于是,近似重復(fù)視頻的檢索(Near-Duplicate Video Retrieval,NDVR)成為了諸多新任務(wù)的關(guān)鍵。面對這種大量重復(fù)數(shù)據(jù)存在于網(wǎng)絡(luò)中的現(xiàn)狀,人們紛紛提出了諸多網(wǎng)頁查重的方法,但是專門用于去除近似重復(fù)視頻網(wǎng)頁的方法卻屈指可數(shù)。于是,本文針對含有內(nèi)嵌字幕的視頻,以其本身就是視頻畫面一部分內(nèi)容的內(nèi)嵌字幕為去重依據(jù),提出一種基于內(nèi)嵌字幕的網(wǎng)頁視頻去重方法,采用與視頻內(nèi)容具有高匹配性的內(nèi)嵌字幕的文本信息,來完成去重工作。本文的主要研究工作如下:(1)抓取網(wǎng)頁視頻。本文所研究的去重方法是基于內(nèi)嵌字幕進行的,那么內(nèi)嵌字幕的提取自然就是最基本的工作,也是十分關(guān)鍵的步驟。于是,首先對如何完成自動提取視頻內(nèi)嵌字幕的工作進行探究,從而獲取到字幕的文本文件。(2)獲取內(nèi)嵌字幕相似度。由于內(nèi)嵌字幕具有不變性,故其文本文字的順序必定是一致的,而LCS(Longest Common Subsequences最長公共子序列)算法嚴(yán)格有序,足以完成相似度的計算。于是采用LCS算法并加以實現(xiàn),使之能符合本研究,得到兩個內(nèi)嵌字幕文本文件比較后的相似度。(3)設(shè)定去重標(biāo)準(zhǔn)。視頻的字幕文本文件是根據(jù)視頻內(nèi)嵌字幕提取而來,而內(nèi)嵌字幕又是視頻畫面的一部分,所以,從理論上說,兩個重復(fù)視頻的字幕應(yīng)該完全一致,即去重標(biāo)準(zhǔn)應(yīng)定為100%。但是,由于提取內(nèi)嵌字幕時采用的是光學(xué)OCR的方法,在去除噪聲影響過程中參數(shù)的設(shè)置會使得即使是兩個相同內(nèi)容的視頻,若其分辨率等不同,提取出來的字幕也會有所偏差。另一方面,一些視頻是其他視頻的一部分,足夠大時我們認(rèn)為它們也重復(fù)。于是,實際上,一定的偏差是應(yīng)該被允許的。我們采用實驗數(shù)據(jù)以及數(shù)理統(tǒng)計知識,得到最能準(zhǔn)確界定去重標(biāo)準(zhǔn)的值。(4)根據(jù)提出的基于內(nèi)嵌字幕去除近似重復(fù)視頻網(wǎng)頁的思路,設(shè)計并實現(xiàn)了一個近似視頻去重系統(tǒng)。在最后的實驗部分,先從宏觀上實現(xiàn)了系統(tǒng)總體結(jié)構(gòu),再進行詳細(xì)設(shè)計,實現(xiàn)了系統(tǒng)的模塊,最后綜述了重要模塊的功能及具體處理過程和實現(xiàn)細(xì)節(jié)。(5)為了驗證所提出方法的有效性,對網(wǎng)絡(luò)上采集次數(shù)排名前十的電影進行搜索,然后采用兩種不同的方法進行去重,一種是現(xiàn)有的基于文件標(biāo)題特征的去重方法,另一種則是本文所提出的依據(jù)內(nèi)嵌字幕進行去重的方法,觀察兩種方法的再去重效果。實驗結(jié)果表明,依據(jù)內(nèi)嵌字幕對網(wǎng)絡(luò)視頻去重確實比已有方法更較為有效。
【關(guān)鍵詞】:近似視頻網(wǎng)頁 內(nèi)嵌字幕 去重 LCS
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-18
- 1.1 研究背景與意義10-12
- 1.1.1 研究背景10-11
- 1.1.2 研究意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-15
- 1.2.1 國內(nèi)研究現(xiàn)狀12-14
- 1.2.2 國外研究現(xiàn)狀14-15
- 1.3 主要內(nèi)容與論文安排15-18
- 第2章 相關(guān)技術(shù)18-30
- 2.1 Selenium18
- 2.2 內(nèi)嵌字幕等的提取18-24
- 2.2.1 字幕的種類19-20
- 2.2.2 OCR處理20-21
- 2.2.3 OCR提取內(nèi)嵌字幕21-24
- 2.3 文本相似度算法24-26
- 2.3.1 LCS問題求解原理24-25
- 2.3.2 LCS算法原理(非連續(xù))25
- 2.3.3 本文的動態(tài)規(guī)劃LCS算法25-26
- 2.4 閾值的確定26-29
- 2.4.1 一元線性回歸27
- 2.4.2 極大似然估計27-28
- 2.4.3 回歸效果檢驗28-29
- 2.5 刪除重復(fù)視頻29
- 2.6 本章小結(jié)29-30
- 第3章 網(wǎng)頁視頻的抓取30-34
- 3.1 視頻抓取數(shù)據(jù)源30-31
- 3.2 抓取過程31
- 3.3 基于Selenium搭建框架31-33
- 3.4 本章小結(jié)33-34
- 第4章 閾值的確定34-38
- 4.1 閾值的確定34-36
- 4.2 本章小結(jié)36-38
- 第5章 文本相似度算法38-42
- 5.1 動態(tài)規(guī)劃LCS算法38-39
- 5.2 具體實現(xiàn)步驟39-41
- 5.3 本章小結(jié)41-42
- 第6章 實驗系統(tǒng)設(shè)計與實驗結(jié)果42-52
- 6.1 實驗系統(tǒng)總體結(jié)構(gòu)42-45
- 6.2 實驗系統(tǒng)詳細(xì)設(shè)計45-46
- 6.3 去重模塊46-47
- 6.4 數(shù)據(jù)平臺及數(shù)據(jù)獲取47-48
- 6.5 實驗結(jié)果分析48-50
- 6.5.1 性能評價指標(biāo)48-49
- 6.5.2 實驗結(jié)果49-50
- 6.6 本章小結(jié)50-52
- 結(jié)論52-54
- 參考文獻54-58
- 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文58-60
- 致謝60
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 申曉;;如何編程實現(xiàn)快速LCS算法[J];電腦編程技巧與維護;2012年11期
2 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期
,本文編號:1021944
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1021944.html
最近更新
教材專著