天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Shazam算法的音頻樣例檢索技術(shù)研究

發(fā)布時(shí)間:2020-03-22 02:25
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來,互聯(lián)網(wǎng)上的多媒體信息量呈爆炸式增長(zhǎng)。傳統(tǒng)的基于文本標(biāo)注的檢索已經(jīng)不能滿足人們對(duì)多媒體檢索的需求;诙嗝襟w文件自身內(nèi)容信息的檢索已經(jīng)成為近年來的研究熱點(diǎn),其中樣例檢索(Query-by-Example,QbE)具有使用方便、無需標(biāo)注信息等特點(diǎn)。以音頻為例,人們可以通過提交未知的音頻片段來搜索數(shù)據(jù)庫(kù),從而獲取該段音頻的相關(guān)信息。Shazam音頻檢索是樣例檢索的一種重要形式,它具有體積小、檢索速度快等優(yōu)點(diǎn)。本文通過對(duì)傳統(tǒng)Shazam音頻檢索算法進(jìn)行改進(jìn),旨在提高用戶檢索的效率,主要工作如下:1、搭建基線音頻檢索系統(tǒng)。將音樂檢索算法Shazam引入到基于語音的樣例檢索中,組成基于音頻的樣例檢索基線系統(tǒng),并對(duì)系統(tǒng)進(jìn)行性能測(cè)試。2、系統(tǒng)優(yōu)化。在檢索匹配中去掉排序靠后的候選音頻,取前TopN首音頻分別求最大時(shí)間偏移量,降低系統(tǒng)的檢索時(shí)間;基于索引空間交換時(shí)間的方法,探究了索引空間中重要參數(shù)對(duì)系統(tǒng)性能的影響,選取了最合適的參數(shù)構(gòu)造索引空間,提升了系統(tǒng)的性能。3、提出了一種新的特征提取算法。原Shazam算法中特征提取是選取每一幀的能量峰值點(diǎn)作為特征點(diǎn),而新的特征提取算法選取基于矩形區(qū)域中能量閾值點(diǎn)作為特征點(diǎn)。首先是在理論上分析了改進(jìn)算法的可行性,然后分別通過純凈音頻和室內(nèi)噪聲環(huán)境錄制音頻,進(jìn)行兩種算法的對(duì)比試驗(yàn),驗(yàn)證了改進(jìn)算法能夠提取更具有代表性的特征點(diǎn),降低系統(tǒng)的檢索錯(cuò)誤率。以8s音頻片段為例,改進(jìn)算法比原Shazam算法錯(cuò)誤率相對(duì)降低55.3%。4、用C,Java編程語言,采用C/S模式,實(shí)現(xiàn)了APP客戶端和服務(wù)器模式的音頻樣例檢索系統(tǒng)。對(duì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)做了具體的分析,對(duì)主要的模塊進(jìn)行了介紹,并對(duì)系統(tǒng)性能進(jìn)行了測(cè)試。
【圖文】:

流程圖,特征提取,流程,靜態(tài)特征


l——1,2, ,L濾波器頻率特性為:( ), ( ) ( )( ) ( )( ), c( ) ( )( ) ( )( )ik o lo l k c lc l o lh l kl k h lh l c lW k (2.6(4)對(duì)濾波器輸出取對(duì)數(shù),再進(jìn)行離散余弦變換(Discrete Cosine TransformDCT),得到 MFCC:1( ) lg ( ) cos[ ( 0.5) ]LMFCClC n Y l l n L (2.7式中,n——上述得到的 MFCC 作為靜態(tài)特征,進(jìn)行一階與二階差分,可達(dá)到相應(yīng)的動(dòng)態(tài)特征。

濾波器,頻率,音頻信息,音頻


圖 2.3 相鄰 Mel 濾波器頻率的關(guān)系2.2 音頻信息檢索的評(píng)價(jià)音頻信息檢索的評(píng)價(jià)是音頻信息檢索領(lǐng)域中的一項(xiàng)重要工作,通過比較各種檢索技術(shù)的優(yōu)劣,,對(duì)改進(jìn)現(xiàn)有檢索系統(tǒng)的性能以及開發(fā)新的應(yīng)用領(lǐng)域和研究方向等方面都發(fā)揮著不可替代的作用[40]。信息檢索中通常采用準(zhǔn)確率、召回率、綜合性能 F 測(cè)度,還有檢索時(shí)間等指標(biāo)衡量。本文的音頻檢索系統(tǒng)采用下面幾個(gè)性能指標(biāo)進(jìn)行評(píng)價(jià):(1)準(zhǔn)確率(Precision Rate, 也稱為查準(zhǔn)率)是指檢索出相關(guān)信息的文檔和實(shí)際檢索出的文檔的比值。本文中是指檢索出正確的音頻個(gè)數(shù)和實(shí)際檢索出的總的音頻個(gè)數(shù)的比值,其公式定義如下:檢索出正確的音頻個(gè)數(shù)
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3;TN912.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 高曉芳;羅森林;呂英;羅志軍;潘麗敏;;雙哈希索引的高精度大規(guī)模音頻樣例檢索[J];聲學(xué)學(xué)報(bào);2015年06期

2 孟建華;陳寧;;基于Gammachirp耳蝸能量譜特征提取的音頻指紋算法[J];華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年05期

3 楊鵬;謝磊;張艷寧;;低資源語言的無監(jiān)督語音關(guān)鍵詞檢測(cè)技術(shù)綜述[J];中國(guó)圖象圖形學(xué)報(bào);2015年02期

4 丁明亮;陳雋;;自閉癥患兒言語康復(fù)訓(xùn)練系統(tǒng)的研究[J];生命科學(xué)儀器;2013年Z1期

5 吳大剛,肖榮榮;C/S結(jié)構(gòu)與B/S結(jié)構(gòu)的信息系統(tǒng)比較分析[J];情報(bào)科學(xué);2003年03期

相關(guān)博士學(xué)位論文 前2條

1 張雪源;面向音頻檢索的音頻特征分析方法研究[D];華南理工大學(xué);2015年

2 王鏹;基于內(nèi)容的海量音樂檢索技術(shù)研究[D];北京郵電大學(xué);2013年

相關(guān)碩士學(xué)位論文 前7條

1 吳娟;基于數(shù)字指紋的音樂哼唱檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南師范大學(xué);2015年

2 趙娟;基于內(nèi)容的海量音頻智能檢索與重復(fù)性檢測(cè)[D];太原理工大學(xué);2015年

3 曹清然;電臺(tái)音樂檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

4 郭永帥;基于音頻指紋和版本識(shí)別的音樂檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2014年

5 陳雋;基于自閉癥患兒語言康復(fù)訓(xùn)練的語音識(shí)別系統(tǒng)的研究[D];重慶理工大學(xué);2013年

6 張磊;音頻樣例檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年

7 王明娟;基于FPGA語音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];廣西師范大學(xué);2009年



本文編號(hào):2594323

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2594323.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶929be***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com