文本分類(lèi)算法在高校檔案管理中的應(yīng)用研究.pdf
本文關(guān)鍵詞:文本分類(lèi)算法在高校檔案管理中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
中文摘要 論文題目: 文本分類(lèi)算法在高校檔案管理中的應(yīng)用研究 專(zhuān) 業(yè): 計(jì)算機(jī)技術(shù) 碩士生: 王楊帆 簽名 指導(dǎo)教師: 韓家新 簽名 胡耀明 簽名 摘要 隨著我國(guó)高等教育的飛速發(fā)展,各高校檔案館所管理的檔案也越來(lái)越多,為此許多 高校都已經(jīng)裝備了檔案管理軟件來(lái)對(duì)檔案進(jìn)行計(jì)算機(jī)管理。然而目前主流的針對(duì)高校的 檔案管理軟件都沒(méi)有對(duì)檔案文件進(jìn)行自動(dòng)分類(lèi)的功能,為減輕高校檔案館業(yè)務(wù)人員的工 作量,本文探索一種適合高校檔案的文本自動(dòng)分類(lèi)方法。 本文首先較為系統(tǒng)的綜述了中文文本分類(lèi)算法的發(fā)展進(jìn)程和當(dāng)前文本分類(lèi)算法的 發(fā)展動(dòng)態(tài),詳細(xì)的介紹了文本表示、文本特征選擇、特征提取,特征加權(quán),分類(lèi)算法、 分類(lèi)器的構(gòu)建、分類(lèi)器性能評(píng)估的研究現(xiàn)狀。作者根據(jù)高校所管理檔案的特點(diǎn),對(duì)傳統(tǒng) 的中文文本分類(lèi)算法中的一些步驟進(jìn)行了改進(jìn),,根據(jù)高校檔案的周期性、重復(fù)性、知識(shí) 性等特點(diǎn),同時(shí)借鑒檔案館業(yè)務(wù)人員在手工對(duì)檔案進(jìn)行分類(lèi)時(shí)只需通過(guò)觀察檔案正題名 和責(zé)任者信息即可確定其類(lèi)別的分類(lèi)方法。提出了依靠類(lèi)別詞庫(kù)、停用詞庫(kù)和責(zé)任者詞 庫(kù)等基礎(chǔ)詞庫(kù)來(lái)支持以檔案正題名和責(zé)任者為主要分析對(duì)象的基于語(yǔ)義的短文本多因 素加權(quán)分類(lèi)算法。在該算法中首先采用統(tǒng)計(jì)分析和人工經(jīng)驗(yàn)相結(jié)合的方法為十個(gè)檔案大 類(lèi)的每個(gè)小類(lèi)分別構(gòu)造了類(lèi)別詞及權(quán)值,再?gòu)募悍诸?lèi)的檔案信息中提取責(zé)任者信息構(gòu)造 了責(zé)任者詞庫(kù),并通過(guò)人工經(jīng)驗(yàn)構(gòu)造了停用詞庫(kù)。 在本算法中,首先通過(guò)責(zé)任者信息確定一份檔案所屬的大類(lèi),然后對(duì)檔案正題名進(jìn) 行去停用詞操作并提取其中包含的類(lèi)別詞和權(quán)值,之后通過(guò)加權(quán)求和比較大小確定該檔 案所屬的類(lèi)別。實(shí)驗(yàn)表明,在檔案文件的正題名和責(zé)任
本文關(guān)鍵詞:文本分類(lèi)算法在高校檔案管理中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):185524
本文鏈接:http://www.sikaile.net/tushudanganlunwen/185524.html