天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 文藝論文 > 民族器樂論文 >

基于深度學習的哼唱音頻樂譜識別技術研究

發(fā)布時間:2020-05-27 14:21
【摘要】:哼唱識別是當前音樂信息提取研究中的一大熱點,其目標是根據(jù)用戶的哼唱,識別出用戶哼唱的歌曲。由于其交互形式友好,在移動設備上使用便利,相關技術在音樂檢索、音樂推薦等領域具有廣闊的應用前景。本文針對哼唱音頻信號自動識別問題,研究了深度學習研究中常用方法和手段,將深度學習方法應用到哼唱識別中,結合傳統(tǒng)音頻信號處理方法,提出了一種基于深度學習框架的識別方法,設計了一個哼唱音頻識別深度學習框架,實現(xiàn)對人聲哼唱的音樂信號進行識別。本文還基于此實現(xiàn)了一個具有實用價值、可擴展性強的哼唱音頻樂譜識別系統(tǒng),通過實驗驗證了所提出的基于深度學習的哼唱識別算法的可行性。論文的研究工作主要包括:(1)研究了哼唱音頻數(shù)據(jù)處理方法,包括音頻濾波、預加重、加窗分幀、音符起始點檢測、音頻信號特征表示等方法,對比了不同方法之間的區(qū)別和優(yōu)缺點,針對深度學習數(shù)據(jù)集的要求選取了合適的方法進行深入研究和實踐。(2)深入研究了當前深度學習研究的理論基礎與常用方法,包括常用神經(jīng)網(wǎng)絡的設計與訓練方法,應用廣泛的各類神經(jīng)網(wǎng)絡結構的原理與優(yōu)缺點等。基于此設計了一個卷積循環(huán)神經(jīng)網(wǎng)絡模型,結合卷積神經(jīng)網(wǎng)絡在局部特征提取和循環(huán)神經(jīng)網(wǎng)絡在歸納序列數(shù)據(jù)特征方面的優(yōu)勢,提高哼唱音頻信號識別的準確率。(3)利用開源深度學習平臺與工具,對所提出的神經(jīng)網(wǎng)絡模型進行了實驗與論證。通過在測試數(shù)據(jù)集上進行訓練和測試,反復調整模型,得到了效果較好的模型參數(shù)。并通過在測試數(shù)據(jù)集上的評估測試,驗證了所提出的神經(jīng)網(wǎng)絡模型的可行性和有效性,并對模型性能進行了分析和評估。(4)基于所提出的深度學習框架,利用服務端和移動端開發(fā)技術,設計實現(xiàn)了一個哼唱音頻樂譜識別原型系統(tǒng),包括服務端的音頻識別服務、移動端的音頻錄制、音頻上傳等功能模塊。
【圖文】:

識別問題,技術路線,論文,音頻


逡逑總體的技術路線如圖1.1所示。逡逑哼唱音頻數(shù)據(jù)集逡逑0邋0邋0逡逑DSD100邋MedleyDB邋自行錄制逡逑邐邋Y逡逑哼唱音頻處理逡逑y逡逑哼唱識別神經(jīng)網(wǎng)絡模型逡逑卷積層邋循環(huán)層邋批量歸一化逡逑ReLU邐Dropout邋?邋?邋?逡逑邐邋邐^邋r邐逡逑卜此恮叫邐,目鴨識別.逡逑Bottle邋框架邐^邐Web邋服務邐邐逡逑邐?哼唱識別系統(tǒng)逡逑React邋Native框架邐^邋D邋SSffl邋H逡逑圖1.1本文技術路線逡逑1.4論文組織結構逡逑本文主要研究基于深度學習的哼唱音頻識別問題,將闡述研宄中使用到的相逡逑關技術的原理和理論基礎、實驗使用的網(wǎng)絡模型以及實驗和結果分析。論文分為逡逑六個章節(jié),每章的內容如下:逡逑第一章緒論,提出論文的研究背景和研究意義,分析國內外當前的研究情況,逡逑介紹本文的研究目標和研宄內容,制定整體的技術路線。逡逑第二章為論文的理論基礎,概括了深度學習的概念,介紹了深度學習研宄的逡逑一般方法及其應用,重?

可視化,配置文件,視覺學,代碼


TensorFlow還具備高度移植性,基于TensorFlow編寫的代碼可以在幾乎不逡逑經(jīng)過修改的情況下,部署到多種終端上,即使不同設備可能擁有不同的CPU或逡逑GPU數(shù)量、不同的操作系統(tǒng)和硬件環(huán)境。同時TensorFlow的編譯速度極快,在逡逑探索網(wǎng)絡結構設計時,付出的時間代價非常小。逡逑2.5.2邋Caffe逡逑Caffe是一個被廣泛使用的開源深度學習框架,由伯克利視覺學中心進行維逡逑護。Caffe的主要優(yōu)勢包括:逡逑(1)可以快速開始,網(wǎng)絡結構都是以配置文件形式定義,不需要用代碼設逡逑計網(wǎng)絡。逡逑(2)擁有大量訓練好的經(jīng)典模型。逡逑(3)高度模塊化的算法,擴展性和可重用性高。逡逑Caffe的核心概念是Layer,,每一個神經(jīng)網(wǎng)絡的模塊都是一個Layer,Layer逡逑接收輸入數(shù)據(jù),同時經(jīng)過內部計算產(chǎn)生輸出數(shù)據(jù),設計網(wǎng)絡結構時,只需要通過逡逑配置文件把各個Layer拼接在一起構成完成的網(wǎng)絡[4()]。如圖2.4所示,展示了一逡逑
【學位授予單位】:武漢大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:J613.2;TP181

【參考文獻】

相關期刊論文 前8條

1 余凱;賈磊;陳雨強;徐偉;;深度學習的昨天、今天和明天[J];計算機研究與發(fā)展;2013年09期

2 曹輝;徐晨;趙曉;吳勝舉;;說話人識別中的Mel特征頻率倒譜系數(shù)[J];西北大學學報(自然科學版);2013年02期

3 侯玨;劉軼;鄭方;蔣丹寧;秦勇;黃石磊;劉勇;;基于VP樹結構的多層匹配算法在哼唱識別中的應用[J];清華大學學報(自然科學版);2009年S1期

4 曹文曉;劉軼;鄭方;蔣丹寧;秦勇;;用于哼唱識別精確匹配的線性伸縮動態(tài)規(guī)劃算法[J];清華大學學報(自然科學版);2009年S1期

5 馮雅中,莊越挺,潘云鶴;一種啟發(fā)式的用哼唱檢索音樂的層次化方法[J];計算機研究與發(fā)展;2004年02期

6 李揚,吳亞棟,劉寶龍;一種新的近似旋律匹配方法及其在哼唱檢索系統(tǒng)中的應用[J];計算機研究與發(fā)展;2003年11期

7 覃光華,丁晶,陳彬兵;預防過擬合現(xiàn)象的人工神經(jīng)網(wǎng)絡訓練策略及其應用[J];長江科學院院報;2002年03期

8 劉曙光;鄭崇勛;劉明遠;;前饋神經(jīng)網(wǎng)絡中的反向傳播算法及其改進:進展與展望[J];計算機科學;1996年01期

相關碩士學位論文 前5條

1 王公友;基于內容的音頻分析與場景識別[D];南京大學;2013年

2 王京輝;語音信號處理技術研究[D];山東大學;2008年

3 李晨;結合語音識別技術的音樂哼唱檢索研究[D];西北大學;2008年

4 陳家紅;哼唱檢索中哼唱信息處理方法的研究[D];南京理工大學;2008年

5 陳旭;基于內容的音頻哼唱識別及檢索系統(tǒng)[D];上海交通大學;2008年



本文編號:2683660

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/mzqiyue/2683660.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶50033***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com