基于深度學習的哼唱音頻樂譜識別技術研究

發(fā)布時間：2020-05-27 14:21

【摘要】：哼唱識別是當前音樂信息提取研究中的一大熱點,其目標是根據(jù)用戶的哼唱,識別出用戶哼唱的歌曲。由于其交互形式友好,在移動設備上使用便利,相關技術在音樂檢索、音樂推薦等領域具有廣闊的應用前景。本文針對哼唱音頻信號自動識別問題,研究了深度學習研究中常用方法和手段,將深度學習方法應用到哼唱識別中,結合傳統(tǒng)音頻信號處理方法,提出了一種基于深度學習框架的識別方法,設計了一個哼唱音頻識別深度學習框架,實現(xiàn)對人聲哼唱的音樂信號進行識別。本文還基于此實現(xiàn)了一個具有實用價值、可擴展性強的哼唱音頻樂譜識別系統(tǒng),通過實驗驗證了所提出的基于深度學習的哼唱識別算法的可行性。論文的研究工作主要包括:(1)研究了哼唱音頻數(shù)據(jù)處理方法,包括音頻濾波、預加重、加窗分幀、音符起始點檢測、音頻信號特征表示等方法,對比了不同方法之間的區(qū)別和優(yōu)缺點,針對深度學習數(shù)據(jù)集的要求選取了合適的方法進行深入研究和實踐。(2)深入研究了當前深度學習研究的理論基礎與常用方法,包括常用神經(jīng)網(wǎng)絡的設計與訓練方法,應用廣泛的各類神經(jīng)網(wǎng)絡結構的原理與優(yōu)缺點等。基于此設計了一個卷積循環(huán)神經(jīng)網(wǎng)絡模型,結合卷積神經(jīng)網(wǎng)絡在局部特征提取和循環(huán)神經(jīng)網(wǎng)絡在歸納序列數(shù)據(jù)特征方面的優(yōu)勢,提高哼唱音頻信號識別的準確率。(3)利用開源深度學習平臺與工具,對所提出的神經(jīng)網(wǎng)絡模型進行了實驗與論證。通過在測試數(shù)據(jù)集上進行訓練和測試,反復調整模型,得到了效果較好的模型參數(shù)。并通過在測試數(shù)據(jù)集上的評估測試,驗證了所提出的神經(jīng)網(wǎng)絡模型的可行性和有效性,并對模型性能進行了分析和評估。(4)基于所提出的深度學習框架,利用服務端和移動端開發(fā)技術,設計實現(xiàn)了一個哼唱音頻樂譜識別原型系統(tǒng),包括服務端的音頻識別服務、移動端的音頻錄制、音頻上傳等功能模塊。
【圖文】：

識別問題,技術路線,論文,音頻

逡逑總體的技術路線如圖１．１所示。逡逑哼唱音頻數(shù)據(jù)集逡逑０邋０邋０逡逑ＤＳＤ１００邋ＭｅｄｌｅｙＤＢ邋自行錄制逡逑邐邋Ｙ逡逑哼唱音頻處理逡逑ｙ逡逑哼唱識別神經(jīng)網(wǎng)絡模型逡逑卷積層邋循環(huán)層邋批量歸一化逡逑ＲｅＬＵ邐Ｄｒｏｐｏｕｔ邋？邋？邋？逡逑邐邋邐＾邋ｒ邐逡逑卜此恮叫邐，目鴨識別．逡逑Ｂｏｔｔｌｅ邋框架邐＾邐Ｗｅｂ邋服務邐邐逡逑邐？哼唱識別系統(tǒng)逡逑Ｒｅａｃｔ邋Ｎａｔｉｖｅ框架邐＾邋Ｄ邋ＳＳｆｆｌ邋Ｈ逡逑圖１．１本文技術路線逡逑１．４論文組織結構逡逑本文主要研究基于深度學習的哼唱音頻識別問題，將闡述研宄中使用到的相逡逑關技術的原理和理論基礎、實驗使用的網(wǎng)絡模型以及實驗和結果分析。論文分為逡逑六個章節(jié)，每章的內容如下：逡逑第一章緒論，提出論文的研究背景和研究意義，分析國內外當前的研究情況，逡逑介紹本文的研究目標和研宄內容，制定整體的技術路線。逡逑第二章為論文的理論基礎，概括了深度學習的概念，介紹了深度學習研宄的逡逑一般方法及其應用，重?

可視化,配置文件,視覺學,代碼

ＴｅｎｓｏｒＦｌｏｗ還具備高度移植性，基于ＴｅｎｓｏｒＦｌｏｗ編寫的代碼可以在幾乎不逡逑經(jīng)過修改的情況下，部署到多種終端上，即使不同設備可能擁有不同的ＣＰＵ或逡逑ＧＰＵ數(shù)量、不同的操作系統(tǒng)和硬件環(huán)境。同時ＴｅｎｓｏｒＦｌｏｗ的編譯速度極快，在逡逑探索網(wǎng)絡結構設計時，付出的時間代價非常小。逡逑２．５．２邋Ｃａｆｆｅ逡逑Ｃａｆｆｅ是一個被廣泛使用的開源深度學習框架，由伯克利視覺學中心進行維逡逑護。Ｃａｆｆｅ的主要優(yōu)勢包括：逡逑（１）可以快速開始，網(wǎng)絡結構都是以配置文件形式定義，不需要用代碼設逡逑計網(wǎng)絡。逡逑（２）擁有大量訓練好的經(jīng)典模型。逡逑（３）高度模塊化的算法，擴展性和可重用性高。逡逑Ｃａｆｆｅ的核心概念是Ｌａｙｅｒ，，每一個神經(jīng)網(wǎng)絡的模塊都是一個Ｌａｙｅｒ，Ｌａｙｅｒ逡逑接收輸入數(shù)據(jù)，同時經(jīng)過內部計算產(chǎn)生輸出數(shù)據(jù)，設計網(wǎng)絡結構時，只需要通過逡逑配置文件把各個Ｌａｙｅｒ拼接在一起構成完成的網(wǎng)絡［４（）］。如圖２．４所示，展示了一逡逑
【學位授予單位】：武漢大學
【學位級別】：碩士
【學位授予年份】：2018
【分類號】：J613.2;TP181

【參考文獻】

相關期刊論文前8條

1 余凱;賈磊;陳雨強;徐偉;;深度學習的昨天、今天和明天[J];計算機研究與發(fā)展;2013年09期

2 曹輝;徐晨;趙曉;吳勝舉;;說話人識別中的Mel特征頻率倒譜系數(shù)[J];西北大學學報(自然科學版);2013年02期

3 侯玨;劉軼;鄭方;蔣丹寧;秦勇;黃石磊;劉勇;;基于VP樹結構的多層匹配算法在哼唱識別中的應用[J];清華大學學報(自然科學版);2009年S1期

4 曹文曉;劉軼;鄭方;蔣丹寧;秦勇;;用于哼唱識別精確匹配的線性伸縮動態(tài)規(guī)劃算法[J];清華大學學報(自然科學版);2009年S1期

5 馮雅中,莊越挺,潘云鶴;一種啟發(fā)式的用哼唱檢索音樂的層次化方法[J];計算機研究與發(fā)展;2004年02期

6 李揚,吳亞棟,劉寶龍;一種新的近似旋律匹配方法及其在哼唱檢索系統(tǒng)中的應用[J];計算機研究與發(fā)展;2003年11期

7 覃光華,丁晶,陳彬兵;預防過擬合現(xiàn)象的人工神經(jīng)網(wǎng)絡訓練策略及其應用[J];長江科學院院報;2002年03期

8 劉曙光;鄭崇勛;劉明遠;;前饋神經(jīng)網(wǎng)絡中的反向傳播算法及其改進:進展與展望[J];計算機科學;1996年01期

相關碩士學位論文前5條

1 王公友;基于內容的音頻分析與場景識別[D];南京大學;2013年

2 王京輝;語音信號處理技術研究[D];山東大學;2008年

3 李晨;結合語音識別技術的音樂哼唱檢索研究[D];西北大學;2008年

4 陳家紅;哼唱檢索中哼唱信息處理方法的研究[D];南京理工大學;2008年

5 陳旭;基于內容的音頻哼唱識別及檢索系統(tǒng)[D];上海交通大學;2008年

本文編號：2683660

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/wenyilunwen/mzqiyue/2683660.html

上一篇：二胡曲《春江水暖》（Ⅲ）音樂特征及其演奏分析
下一篇：漢語節(jié)律結構與音樂節(jié)奏的映射關系

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的哼唱音頻樂譜識別技術研究