基于隨機森林算法的對外漢語文本可讀性評估

發(fā)布時間：2021-01-12 11:24

　　可讀性指文本易于閱讀的程度或性質(zhì),評估對外漢語文本可讀性在對外漢語教學中十分重要。文章針對對外漢語文本可讀性難以人工評估的問題,提出了一種基于隨機森林算法的對外漢語文本可讀性自動評估方法。該方法從基礎(chǔ)特征、詞性特征、等級特征和語法特征這四個維度提取特征,進行特征選擇后在訓練集上利用隨機森林算法訓練分類器,并在測試集上證實了該方法的有效性。

【文章來源】：中國教育信息化. 2019,(14)

【文章頁數(shù)】：8 頁

【部分圖文】：

隨機森林算法示意圖能

樹狀圖,語法樹,中國教育,結(jié)構(gòu)層次

所以接下來著重介紹一下“語法特征”的提取。我們采用斯坦福NLP小組研發(fā)的斯坦福解析器進行對外漢語文本的語法分析，具體工具使用的是NLTK提供的斯坦福語法解析器的python接口。該工具可以將一句話分析成語法樹，將句子結(jié)構(gòu)用圖形表示，代表了句子的推導結(jié)果，可用于分析句子語法結(jié)構(gòu)。簡單來說，語法樹就是按照某一規(guī)則進行推導后形成的樹狀圖，樹狀圖的層級是指將語法分析的結(jié)果轉(zhuǎn)換為樹狀圖后各節(jié)點的層次，以此類推[31]。語法分析樹的結(jié)構(gòu)層次如圖1所示，接下來我們根據(jù)語法樹的分析結(jié)果提取了語法特征12個，如表7所示。2.特征預處理將以上86個特征提取完畢后發(fā)現(xiàn)，特征數(shù)據(jù)差異較大，如特征“總字次”的取值區(qū)間為[109,4621]，特征“語法分析樹平均節(jié)點數(shù)”的取值區(qū)間為[39.493151,180.6]，所以在對特征進行特征選擇之前，需要對特征進行數(shù)據(jù)預處理。本研究中采用了區(qū)間縮放法，公式表達為：x'=x-MinMax-Min公式1采用區(qū)間縮放法后，每個特征的取值范圍都在[0,1]區(qū)間，避免了由于特征取值范圍差異巨大而影響后期的特征選擇、分類器訓練。3.特征選擇特征選擇定義如下：給定一組候選特征，選擇出在某個分類器下最佳的子集[32]。特征選擇可以去除無關(guān)特序號特征名注釋11級詞種數(shù)一級常用漢語詞種數(shù)22級詞種數(shù)二級常用漢語詞種數(shù)33級詞種數(shù)三級常用漢語詞種數(shù)44級詞種數(shù)四級常用漢語詞種數(shù)55級詞種數(shù)五級常用漢語詞種數(shù)66級詞種數(shù)六級常用漢語詞種數(shù)71-6難度和所有詞語等級之和81級詞種詞頻1級去重詞語的詞頻92級詞種詞頻2級去重詞語

【參考文獻】：
期刊論文
[1]基于組合分類器的DDoS攻擊流量分布式檢測模型[J]. 賈斌,馬嚴,趙翔.  華中科技大學學報(自然科學版). 2016(S1)
[2]一種基于組策略的過濾式特征選擇算法[J]. 許堯,胡學鋼,李培培.  計算機應(yīng)用研究. 2016(05)
[3]中級歐美留學生漢語文本可讀性公式研究[J]. 左虹,朱勇.  世界漢語教學. 2014(02)
[4]基于詞性和中心點改進的文本聚類方法[J]. 施侃晟,劉海濤,宋文濤.  模式識別與人工智能. 2012(06)
[5]漢語國際推廣背景下的詞匯等級標準研究[J]. 孫曉明.  民族教育研究. 2012(01)
[6]基于語法樹高度的漢語韻律短語預測[J]. 楊鴻武,王曉麗,陳龍,裴東,郭威彤,蔡蓮紅.  計算機工程與應(yīng)用. 2010(36)
[7]基于條件隨機場（CRFs）的中文詞性標注方法[J]. 洪銘材,張闊,唐杰,李涓子.  計算機科學. 2006(10)
[8]易讀性研究概述[J]. 李紹山.  解放軍外國語學院學報. 2000(04)
[9]漢語自動分詞研究綜述[J]. 駱正清,陳增武,王澤兵,胡上序.  浙江大學學報(自然科學版). 1997(03)
[10]新一代對外漢語教材的展望——再談漢語教材的編寫原則[J]. 劉珣.  世界漢語教學. 1994(01)

碩士論文
[1]對外漢語文本易讀性公式研究[D]. 郭望皓.上海交通大學 2010
[2]高級漢語精讀教材語言難度測定研究[D]. 楊金余.北京大學 2008
[3]初中級日韓留學生文本可讀性公式初探[D]. 王蕾.北京語言大學 2005

本文編號：2972765

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/jiaoyulunwen/duiwaihanyulunwen/2972765.html

上一篇：母語俄語者漢語禮貌用語習得的語用失誤研究
下一篇：基于菲律賓中學的漢語測試研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于隨機森林算法的對外漢語文本可讀性評估