天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 教育論文 > 對外漢語論文 >

基于隨機森林算法的對外漢語文本可讀性評估

發(fā)布時間:2021-01-12 11:24
  可讀性指文本易于閱讀的程度或性質(zhì),評估對外漢語文本可讀性在對外漢語教學中十分重要。文章針對對外漢語文本可讀性難以人工評估的問題,提出了一種基于隨機森林算法的對外漢語文本可讀性自動評估方法。該方法從基礎(chǔ)特征、詞性特征、等級特征和語法特征這四個維度提取特征,進行特征選擇后在訓練集上利用隨機森林算法訓練分類器,并在測試集上證實了該方法的有效性。 

【文章來源】:中國教育信息化. 2019,(14)

【文章頁數(shù)】:8 頁

【部分圖文】:

基于隨機森林算法的對外漢語文本可讀性評估


隨機森林算法示意圖能

樹狀圖,語法樹,中國教育,結(jié)構(gòu)層次


所以接下來著重介紹一下“語法特征”的提取。我們采用斯坦福NLP小組研發(fā)的斯坦福解析器進行對外漢語文本的語法分析,具體工具使用的是NLTK提供的斯坦福語法解析器的python接口。該工具可以將一句話分析成語法樹,將句子結(jié)構(gòu)用圖形表示,代表了句子的推導結(jié)果,可用于分析句子語法結(jié)構(gòu)。簡單來說,語法樹就是按照某一規(guī)則進行推導后形成的樹狀圖,樹狀圖的層級是指將語法分析的結(jié)果轉(zhuǎn)換為樹狀圖后各節(jié)點的層次,以此類推[31]。語法分析樹的結(jié)構(gòu)層次如圖1所示,接下來我們根據(jù)語法樹的分析結(jié)果提取了語法特征12個,如表7所示。2.特征預處理將以上86個特征提取完畢后發(fā)現(xiàn),特征數(shù)據(jù)差異較大,如特征“總字次”的取值區(qū)間為[109,4621],特征“語法分析樹平均節(jié)點數(shù)”的取值區(qū)間為[39.493151,180.6],所以在對特征進行特征選擇之前,需要對特征進行數(shù)據(jù)預處理。本研究中采用了區(qū)間縮放法,公式表達為:x'=x-MinMax-Min公式1采用區(qū)間縮放法后,每個特征的取值范圍都在[0,1]區(qū)間,避免了由于特征取值范圍差異巨大而影響后期的特征選擇、分類器訓練。3.特征選擇特征選擇定義如下:給定一組候選特征,選擇出在某個分類器下最佳的子集[32]。特征選擇可以去除無關(guān)特序號特征名注釋11級詞種數(shù)一級常用漢語詞種數(shù)22級詞種數(shù)二級常用漢語詞種數(shù)33級詞種數(shù)三級常用漢語詞種數(shù)44級詞種數(shù)四級常用漢語詞種數(shù)55級詞種數(shù)五級常用漢語詞種數(shù)66級詞種數(shù)六級常用漢語詞種數(shù)71-6難度和所有詞語等級之和81級詞種詞頻1級去重詞語的詞頻92級詞種詞頻2級去重詞語

樹狀圖,語法樹,中國教育,結(jié)構(gòu)層次


所以接下來著重介紹一下“語法特征”的提取。我們采用斯坦福NLP小組研發(fā)的斯坦福解析器進行對外漢語文本的語法分析,具體工具使用的是NLTK提供的斯坦福語法解析器的python接口。該工具可以將一句話分析成語法樹,將句子結(jié)構(gòu)用圖形表示,代表了句子的推導結(jié)果,可用于分析句子語法結(jié)構(gòu)。簡單來說,語法樹就是按照某一規(guī)則進行推導后形成的樹狀圖,樹狀圖的層級是指將語法分析的結(jié)果轉(zhuǎn)換為樹狀圖后各節(jié)點的層次,以此類推[31]。語法分析樹的結(jié)構(gòu)層次如圖1所示,接下來我們根據(jù)語法樹的分析結(jié)果提取了語法特征12個,如表7所示。2.特征預處理將以上86個特征提取完畢后發(fā)現(xiàn),特征數(shù)據(jù)差異較大,如特征“總字次”的取值區(qū)間為[109,4621],特征“語法分析樹平均節(jié)點數(shù)”的取值區(qū)間為[39.493151,180.6],所以在對特征進行特征選擇之前,需要對特征進行數(shù)據(jù)預處理。本研究中采用了區(qū)間縮放法,公式表達為:x'=x-MinMax-Min公式1采用區(qū)間縮放法后,每個特征的取值范圍都在[0,1]區(qū)間,避免了由于特征取值范圍差異巨大而影響后期的特征選擇、分類器訓練。3.特征選擇特征選擇定義如下:給定一組候選特征,選擇出在某個分類器下最佳的子集[32]。特征選擇可以去除無關(guān)特序號特征名注釋11級詞種數(shù)一級常用漢語詞種數(shù)22級詞種數(shù)二級常用漢語詞種數(shù)33級詞種數(shù)三級常用漢語詞種數(shù)44級詞種數(shù)四級常用漢語詞種數(shù)55級詞種數(shù)五級常用漢語詞種數(shù)66級詞種數(shù)六級常用漢語詞種數(shù)71-6難度和所有詞語等級之和81級詞種詞頻1級去重詞語的詞頻92級詞種詞頻2級去重詞語

【參考文獻】:
期刊論文
[1]基于組合分類器的DDoS攻擊流量分布式檢測模型[J]. 賈斌,馬嚴,趙翔.  華中科技大學學報(自然科學版). 2016(S1)
[2]一種基于組策略的過濾式特征選擇算法[J]. 許堯,胡學鋼,李培培.  計算機應(yīng)用研究. 2016(05)
[3]中級歐美留學生漢語文本可讀性公式研究[J]. 左虹,朱勇.  世界漢語教學. 2014(02)
[4]基于詞性和中心點改進的文本聚類方法[J]. 施侃晟,劉海濤,宋文濤.  模式識別與人工智能. 2012(06)
[5]漢語國際推廣背景下的詞匯等級標準研究[J]. 孫曉明.  民族教育研究. 2012(01)
[6]基于語法樹高度的漢語韻律短語預測[J]. 楊鴻武,王曉麗,陳龍,裴東,郭威彤,蔡蓮紅.  計算機工程與應(yīng)用. 2010(36)
[7]基于條件隨機場(CRFs)的中文詞性標注方法[J]. 洪銘材,張闊,唐杰,李涓子.  計算機科學. 2006(10)
[8]易讀性研究概述[J]. 李紹山.  解放軍外國語學院學報. 2000(04)
[9]漢語自動分詞研究綜述[J]. 駱正清,陳增武,王澤兵,胡上序.  浙江大學學報(自然科學版). 1997(03)
[10]新一代對外漢語教材的展望——再談漢語教材的編寫原則[J]. 劉珣.  世界漢語教學. 1994(01)

碩士論文
[1]對外漢語文本易讀性公式研究[D]. 郭望皓.上海交通大學 2010
[2]高級漢語精讀教材語言難度測定研究[D]. 楊金余.北京大學 2008
[3]初中級日韓留學生文本可讀性公式初探[D]. 王蕾.北京語言大學 2005



本文編號:2972765

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jiaoyulunwen/duiwaihanyulunwen/2972765.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0a74c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com