基于神經(jīng)網(wǎng)絡(luò)的文本自動(dòng)分類系統(tǒng)研究
發(fā)布時(shí)間:2020-05-26 06:13
【摘要】: 文本自動(dòng)分類(Automatic Text Categorization, ATC)是指在給定的分類體系下,根據(jù)文本的內(nèi)容自動(dòng)確定文本所屬類別的過(guò)程。文本自動(dòng)分類使信息趨于有序化,便于信息的存儲(chǔ)、檢索、傳播、開(kāi)發(fā)和利用,是組織和管理海量信息的有效手段,是幾乎所有基于內(nèi)容的文本管理研究的基石,因此文本自動(dòng)分類的研究具有較強(qiáng)的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。 神經(jīng)網(wǎng)絡(luò)分類法作為一種常用的文本自動(dòng)分類方法,具有較強(qiáng)的自學(xué)習(xí)性和魯棒性,但同時(shí)也普遍存在訓(xùn)練時(shí)間長(zhǎng),可解釋性較差等缺點(diǎn)。徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,簡(jiǎn)稱RBFNN)具有網(wǎng)絡(luò)設(shè)計(jì)簡(jiǎn)單、收斂速度快、泛化能力強(qiáng)、可解釋性較好等特點(diǎn),本文對(duì)RBFNN分類算法在中文文本自動(dòng)分類中的應(yīng)用進(jìn)行了深入研究。 本文設(shè)計(jì)實(shí)現(xiàn)的RBFNN文本自動(dòng)分類系統(tǒng)分為文本向量表示和RBFNN分類器的構(gòu)建兩個(gè)主要過(guò)程:首先,選用中國(guó)科學(xué)院計(jì)算所開(kāi)發(fā)的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS對(duì)訓(xùn)練語(yǔ)料進(jìn)行分詞、去停用詞處理,采用不同的特征選擇和權(quán)重計(jì)算方法選取出相應(yīng)的特征項(xiàng)構(gòu)建文本向量空間;其次,通過(guò)k-均值聚類法對(duì)輸入樣本聚類,得到隱含層的最佳節(jié)點(diǎn)個(gè)數(shù)、中心及寬度,然后利用最小平方誤差法訓(xùn)練得到輸出層連接權(quán)值,完成RBFNN文本分類器的訓(xùn)練,并進(jìn)行相關(guān)測(cè)試。實(shí)驗(yàn)結(jié)果表明,RBFNN分類器在中文文本自動(dòng)分類中具有較理想的性能,測(cè)試平均F1值在85%以上。 此外,本文在總結(jié)常用分類器評(píng)價(jià)指標(biāo)的基礎(chǔ)上,提出了基于層次分析法(AHP)的文本自動(dòng)分類系統(tǒng)影響因素指標(biāo)體系,并根據(jù)專家調(diào)查問(wèn)卷結(jié)果構(gòu)造判斷矩陣,利用AHP專用軟件Expert Choice計(jì)算得到各評(píng)價(jià)指標(biāo)的權(quán)重,即各指標(biāo)對(duì)文本自動(dòng)分類系統(tǒng)的影響程度,對(duì)本文文本自動(dòng)分類系統(tǒng)的設(shè)計(jì)實(shí)驗(yàn)、性能測(cè)試起到指導(dǎo)作用。
【圖文】:
的組織方法 C32:類別的組織方法包括平面分類和層次分見(jiàn),近年來(lái)對(duì)層次分類的研究日益增多,但是效果不如平次分類更符合實(shí)際情況,滿足用戶的實(shí)際需求。方法 C33:文本分類器主要有兩種測(cè)試方法——即開(kāi)放測(cè)試測(cè)試是指用于訓(xùn)練和測(cè)試的數(shù)據(jù)集是一樣的,而開(kāi)放測(cè)試驗(yàn)中開(kāi)放測(cè)試和封閉測(cè)試的結(jié)果往往相差較大,封閉性測(cè)會(huì)造成過(guò)學(xué)習(xí)問(wèn)題,從而導(dǎo)致開(kāi)放測(cè)試的效果較差。pert Choice 評(píng)價(jià)文本自動(dòng)分類系統(tǒng)影響因素hoice 軟件是以 AHP 為理論基礎(chǔ)的決策分析工具軟件,它直觀,借著一對(duì)一的比較(Pair-Wise Comparison)和變的判斷,減少?gòu)?fù)雜的計(jì)算過(guò)程并綜合其結(jié)果。利用 Expe析可以分為以下三步:次結(jié)構(gòu)模型(Direct Model Building)。新建一個(gè)目標(biāo)為“分析”層次結(jié)構(gòu)模型,并依次添加層次模型的準(zhǔn)則層指標(biāo)
圖 5 幾種常見(jiàn)的徑向基函數(shù)如圖 5 所示,隨著與中心點(diǎn)距離的增大,Gaussian, Inverse Multiquadric, Ca呈單調(diào)遞減趨勢(shì),Multiquadric 函數(shù)單調(diào)遞增。形如高斯函數(shù)這種呈單調(diào)特基函數(shù)具有良好的局部特征(只在中心點(diǎn)附近的某一范圍內(nèi)反應(yīng)顯著,隨著距離的增大,,其函數(shù)值逐漸趨于零),因此,這類徑向基函數(shù)在實(shí)際中應(yīng)用,其中高斯函數(shù)最為常用。.2 拓?fù)浣Y(jié)構(gòu)及映射關(guān)系標(biāo)準(zhǔn)的 RBFNN 是由輸入層、非線性隱含層(徑向基函數(shù)層)和線性輸出層層結(jié)構(gòu)的、多輸入多輸出的前饋型神經(jīng)網(wǎng)絡(luò),其拓?fù)浣Y(jié)構(gòu)如圖 6 所示。其中為輸入層,作用是輸入信息到隱含層;第二層為隱含層,由徑向基函數(shù)(R,以訓(xùn)練樣本的輸入向量與隱含層節(jié)點(diǎn)權(quán)重向量的歐氏距離作為凈輸入,作入向量進(jìn)行非線性變換;第三層為輸出層,作用是對(duì)隱含層的輸出作線性變換
【學(xué)位授予單位】:山東理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類號(hào)】:TP391.1;G254.1
本文編號(hào):2681403
【圖文】:
的組織方法 C32:類別的組織方法包括平面分類和層次分見(jiàn),近年來(lái)對(duì)層次分類的研究日益增多,但是效果不如平次分類更符合實(shí)際情況,滿足用戶的實(shí)際需求。方法 C33:文本分類器主要有兩種測(cè)試方法——即開(kāi)放測(cè)試測(cè)試是指用于訓(xùn)練和測(cè)試的數(shù)據(jù)集是一樣的,而開(kāi)放測(cè)試驗(yàn)中開(kāi)放測(cè)試和封閉測(cè)試的結(jié)果往往相差較大,封閉性測(cè)會(huì)造成過(guò)學(xué)習(xí)問(wèn)題,從而導(dǎo)致開(kāi)放測(cè)試的效果較差。pert Choice 評(píng)價(jià)文本自動(dòng)分類系統(tǒng)影響因素hoice 軟件是以 AHP 為理論基礎(chǔ)的決策分析工具軟件,它直觀,借著一對(duì)一的比較(Pair-Wise Comparison)和變的判斷,減少?gòu)?fù)雜的計(jì)算過(guò)程并綜合其結(jié)果。利用 Expe析可以分為以下三步:次結(jié)構(gòu)模型(Direct Model Building)。新建一個(gè)目標(biāo)為“分析”層次結(jié)構(gòu)模型,并依次添加層次模型的準(zhǔn)則層指標(biāo)
圖 5 幾種常見(jiàn)的徑向基函數(shù)如圖 5 所示,隨著與中心點(diǎn)距離的增大,Gaussian, Inverse Multiquadric, Ca呈單調(diào)遞減趨勢(shì),Multiquadric 函數(shù)單調(diào)遞增。形如高斯函數(shù)這種呈單調(diào)特基函數(shù)具有良好的局部特征(只在中心點(diǎn)附近的某一范圍內(nèi)反應(yīng)顯著,隨著距離的增大,,其函數(shù)值逐漸趨于零),因此,這類徑向基函數(shù)在實(shí)際中應(yīng)用,其中高斯函數(shù)最為常用。.2 拓?fù)浣Y(jié)構(gòu)及映射關(guān)系標(biāo)準(zhǔn)的 RBFNN 是由輸入層、非線性隱含層(徑向基函數(shù)層)和線性輸出層層結(jié)構(gòu)的、多輸入多輸出的前饋型神經(jīng)網(wǎng)絡(luò),其拓?fù)浣Y(jié)構(gòu)如圖 6 所示。其中為輸入層,作用是輸入信息到隱含層;第二層為隱含層,由徑向基函數(shù)(R,以訓(xùn)練樣本的輸入向量與隱含層節(jié)點(diǎn)權(quán)重向量的歐氏距離作為凈輸入,作入向量進(jìn)行非線性變換;第三層為輸出層,作用是對(duì)隱含層的輸出作線性變換
【學(xué)位授予單位】:山東理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類號(hào)】:TP391.1;G254.1
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前5條
1 李淑鵬;基于神經(jīng)網(wǎng)絡(luò)的文本自動(dòng)分類系統(tǒng)的研究[D];武漢理工大學(xué);2008年
2 孟凡紅;中醫(yī)藥圖書館核心競(jìng)爭(zhēng)力評(píng)價(jià)研究[D];中國(guó)中醫(yī)科學(xué)院;2009年
3 龍浩;基于內(nèi)容過(guò)濾的局域網(wǎng)防泄密系統(tǒng)的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年
4 趙行;SVM分類器置信度的研究[D];北京郵電大學(xué);2010年
5 宋錫友;徑向基神經(jīng)網(wǎng)絡(luò)的研究及在粒度軟測(cè)量中的應(yīng)用[D];東北大學(xué);2009年
本文編號(hào):2681403
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2681403.html
最近更新
教材專著