SVM算法在聲音廣播內(nèi)容監(jiān)測(cè)分類中的應(yīng)用研究
發(fā)布時(shí)間:2021-12-09 19:16
本文針對(duì)廣播內(nèi)容的智能監(jiān)測(cè),介紹了智能聲音廣播監(jiān)測(cè)系統(tǒng)在廣播內(nèi)容識(shí)別監(jiān)測(cè)方面的設(shè)計(jì)思路,以及采用SVM文本分類的方式進(jìn)行廣播違規(guī)內(nèi)容識(shí)別和分類的實(shí)現(xiàn)方法。本文還介紹了對(duì)該方法和系統(tǒng)進(jìn)行的測(cè)試和實(shí)驗(yàn)情況,經(jīng)分析證明了此方法可以進(jìn)一步提升對(duì)違規(guī)廣播內(nèi)容監(jiān)測(cè)的效率和準(zhǔn)確率。
【文章來(lái)源】:廣播電視信息. 2020,27(10)
【文章頁(yè)數(shù)】:4 頁(yè)
【部分圖文】:
文本分類過(guò)程圖
TF-IDF公式是用來(lái)計(jì)算詞語(yǔ)的權(quán)值。在一個(gè)給定的文本中,詞頻(TF)具體指的是某個(gè)給定的詞語(yǔ)在該文本出現(xiàn)的頻率。對(duì)于在某個(gè)特定文件中的詞ti,它的重要性可以具體表示如圖2中的公式(1)[5]。逆向文件頻率(IDF)是指一個(gè)詞語(yǔ)普遍重要性的度量,某一特定詞語(yǔ)的IDF,是由總文件數(shù)量除以包含該詞語(yǔ)的文件的數(shù)量,再將這個(gè)商值取以10為底的對(duì)數(shù),具體計(jì)算如圖2中的公式(2)所示。其中,|D|是語(yǔ)料庫(kù)中的文件總數(shù),|{j:ti∈dj}|表示包含詞語(yǔ)ti的文本數(shù)量,即ni,j≠0的文本數(shù)目,如果文本不包含某詞語(yǔ),則會(huì)出現(xiàn)分母為零的情況。因此,一般使用1+|{j:ti∈dj}|計(jì)算。
交互檢驗(yàn)參數(shù)選取值
本文編號(hào):3531164
【文章來(lái)源】:廣播電視信息. 2020,27(10)
【文章頁(yè)數(shù)】:4 頁(yè)
【部分圖文】:
文本分類過(guò)程圖
TF-IDF公式是用來(lái)計(jì)算詞語(yǔ)的權(quán)值。在一個(gè)給定的文本中,詞頻(TF)具體指的是某個(gè)給定的詞語(yǔ)在該文本出現(xiàn)的頻率。對(duì)于在某個(gè)特定文件中的詞ti,它的重要性可以具體表示如圖2中的公式(1)[5]。逆向文件頻率(IDF)是指一個(gè)詞語(yǔ)普遍重要性的度量,某一特定詞語(yǔ)的IDF,是由總文件數(shù)量除以包含該詞語(yǔ)的文件的數(shù)量,再將這個(gè)商值取以10為底的對(duì)數(shù),具體計(jì)算如圖2中的公式(2)所示。其中,|D|是語(yǔ)料庫(kù)中的文件總數(shù),|{j:ti∈dj}|表示包含詞語(yǔ)ti的文本數(shù)量,即ni,j≠0的文本數(shù)目,如果文本不包含某詞語(yǔ),則會(huì)出現(xiàn)分母為零的情況。因此,一般使用1+|{j:ti∈dj}|計(jì)算。
交互檢驗(yàn)參數(shù)選取值
本文編號(hào):3531164
本文鏈接:http://www.sikaile.net/kejilunwen/wltx/3531164.html
最近更新
教材專著