智能語(yǔ)音交互技術(shù)進(jìn)展
發(fā)布時(shí)間:2020-12-19 08:05
隨著AIoT時(shí)代的到來(lái),包含手機(jī)、智能音箱、智能電視、可穿戴產(chǎn)品在內(nèi)的智能設(shè)備數(shù)量呈現(xiàn)井噴式增長(zhǎng)。由于語(yǔ)音的便捷性,智能語(yǔ)音交互已經(jīng)成為連接人與智能設(shè)備的主要方式。智能設(shè)備能夠"聽(tīng)懂"用戶的語(yǔ)言,執(zhí)行相應(yīng)的指令或者進(jìn)行合理的回復(fù)。智能語(yǔ)音交互背后包含大量的人工智能技術(shù)。本文首先將智能語(yǔ)音交互技術(shù)拆解成語(yǔ)音識(shí)別、自然語(yǔ)言理解、人機(jī)對(duì)話和語(yǔ)音合成等幾項(xiàng)主要技術(shù),分別介紹了這些技術(shù)的概念、進(jìn)展及未來(lái)的發(fā)展趨勢(shì)展望,最后以小米智能助手"小愛(ài)同學(xué)"為例,介紹了這些技術(shù)在實(shí)際場(chǎng)景中的應(yīng)用。
【文章來(lái)源】:人工智能. 2020年05期
【文章頁(yè)數(shù)】:15 頁(yè)
【部分圖文】:
智能語(yǔ)音交互的一般流程
語(yǔ)音識(shí)別或者說(shuō)自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,簡(jiǎn)稱ASR),通常是智能語(yǔ)音交互的第一步。自動(dòng)語(yǔ)音識(shí)別是指從麥克風(fēng)采集到的語(yǔ)音波形信號(hào)中,解碼出人們口中所說(shuō)的說(shuō)話內(nèi)容的過(guò)程(如圖2所示)。研究者認(rèn)為,語(yǔ)音識(shí)別的過(guò)程即是從語(yǔ)音信號(hào)到文字內(nèi)容的解碼過(guò)程。學(xué)術(shù)界通常把語(yǔ)音識(shí)別定義為一個(gè)廣義的技術(shù)集合,認(rèn)為語(yǔ)音識(shí)別是一個(gè)全棧的技術(shù),包括語(yǔ)音轉(zhuǎn)文字、聲紋識(shí)別、語(yǔ)音關(guān)鍵詞檢出、口語(yǔ)評(píng)測(cè)等。而工業(yè)界對(duì)語(yǔ)音識(shí)別的定義則相對(duì)狹義,只表示語(yǔ)音轉(zhuǎn)文字的過(guò)程。本文也只論述這個(gè)狹義的概念。
連續(xù)語(yǔ)音識(shí)別中的聲學(xué)模型可以理解為幫助計(jì)算機(jī)認(rèn)知每個(gè)音素單元的聲學(xué)特征,語(yǔ)言模型可以理解為計(jì)算機(jī)對(duì)人類用詞習(xí)慣的認(rèn)知。語(yǔ)音識(shí)別的過(guò)程就是在語(yǔ)音信號(hào)中不斷地解析出各種可能的音素連接,這些連接受到詞典和用詞習(xí)慣的約束,把可能性最高的連接作為識(shí)別結(jié)果輸出給用戶。研究人員引入了序列建模,典型的模型是隱含馬爾可夫模型(HMM),用來(lái)描述如何在可變長(zhǎng)的時(shí)序特征序列上打詞標(biāo)簽。HMM主持序列的流轉(zhuǎn),用來(lái)在時(shí)間序列上某個(gè)點(diǎn)打標(biāo)簽的代表模型是高斯混合模型(GMM)或者多層的神經(jīng)感知網(wǎng)絡(luò)(MLP),與此同時(shí),為了表達(dá)人類在連續(xù)說(shuō)話中的用詞習(xí)慣,研究者把統(tǒng)計(jì)語(yǔ)言模型也融入到這個(gè)系統(tǒng)中。從序列標(biāo)簽?zāi)P鸵肫,研究者一直試圖解決序列離散化假設(shè)缺陷,打標(biāo)簽?zāi)繕?biāo)不以結(jié)果為導(dǎo)向,但影響語(yǔ)音識(shí)別率的核心矛盾是模型分類能力。為了解決這個(gè)主要矛盾,基于模板的思路曾經(jīng)在2000年后再度興起,為2011年[1]數(shù)據(jù)爆發(fā)和深度神經(jīng)網(wǎng)絡(luò)入主語(yǔ)音識(shí)別打下思想基礎(chǔ)。圖4 語(yǔ)音識(shí)別技術(shù)的變遷
本文編號(hào):2925571
【文章來(lái)源】:人工智能. 2020年05期
【文章頁(yè)數(shù)】:15 頁(yè)
【部分圖文】:
智能語(yǔ)音交互的一般流程
語(yǔ)音識(shí)別或者說(shuō)自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,簡(jiǎn)稱ASR),通常是智能語(yǔ)音交互的第一步。自動(dòng)語(yǔ)音識(shí)別是指從麥克風(fēng)采集到的語(yǔ)音波形信號(hào)中,解碼出人們口中所說(shuō)的說(shuō)話內(nèi)容的過(guò)程(如圖2所示)。研究者認(rèn)為,語(yǔ)音識(shí)別的過(guò)程即是從語(yǔ)音信號(hào)到文字內(nèi)容的解碼過(guò)程。學(xué)術(shù)界通常把語(yǔ)音識(shí)別定義為一個(gè)廣義的技術(shù)集合,認(rèn)為語(yǔ)音識(shí)別是一個(gè)全棧的技術(shù),包括語(yǔ)音轉(zhuǎn)文字、聲紋識(shí)別、語(yǔ)音關(guān)鍵詞檢出、口語(yǔ)評(píng)測(cè)等。而工業(yè)界對(duì)語(yǔ)音識(shí)別的定義則相對(duì)狹義,只表示語(yǔ)音轉(zhuǎn)文字的過(guò)程。本文也只論述這個(gè)狹義的概念。
連續(xù)語(yǔ)音識(shí)別中的聲學(xué)模型可以理解為幫助計(jì)算機(jī)認(rèn)知每個(gè)音素單元的聲學(xué)特征,語(yǔ)言模型可以理解為計(jì)算機(jī)對(duì)人類用詞習(xí)慣的認(rèn)知。語(yǔ)音識(shí)別的過(guò)程就是在語(yǔ)音信號(hào)中不斷地解析出各種可能的音素連接,這些連接受到詞典和用詞習(xí)慣的約束,把可能性最高的連接作為識(shí)別結(jié)果輸出給用戶。研究人員引入了序列建模,典型的模型是隱含馬爾可夫模型(HMM),用來(lái)描述如何在可變長(zhǎng)的時(shí)序特征序列上打詞標(biāo)簽。HMM主持序列的流轉(zhuǎn),用來(lái)在時(shí)間序列上某個(gè)點(diǎn)打標(biāo)簽的代表模型是高斯混合模型(GMM)或者多層的神經(jīng)感知網(wǎng)絡(luò)(MLP),與此同時(shí),為了表達(dá)人類在連續(xù)說(shuō)話中的用詞習(xí)慣,研究者把統(tǒng)計(jì)語(yǔ)言模型也融入到這個(gè)系統(tǒng)中。從序列標(biāo)簽?zāi)P鸵肫,研究者一直試圖解決序列離散化假設(shè)缺陷,打標(biāo)簽?zāi)繕?biāo)不以結(jié)果為導(dǎo)向,但影響語(yǔ)音識(shí)別率的核心矛盾是模型分類能力。為了解決這個(gè)主要矛盾,基于模板的思路曾經(jīng)在2000年后再度興起,為2011年[1]數(shù)據(jù)爆發(fā)和深度神經(jīng)網(wǎng)絡(luò)入主語(yǔ)音識(shí)別打下思想基礎(chǔ)。圖4 語(yǔ)音識(shí)別技術(shù)的變遷
本文編號(hào):2925571
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/2925571.html
最近更新
教材專著