天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

英語(yǔ)口語(yǔ)機(jī)器評(píng)分和人工評(píng)分的對(duì)比研究

發(fā)布時(shí)間:2021-01-17 19:59
  本研究對(duì)比了訊飛口語(yǔ)自動(dòng)評(píng)分系統(tǒng)和人工評(píng)分員對(duì)206名學(xué)生的朗讀、復(fù)述和口頭作文三類口試任務(wù)錄音的評(píng)分結(jié)果,發(fā)現(xiàn)機(jī)器對(duì)朗讀的評(píng)分偏高,對(duì)復(fù)述的評(píng)分偏低,評(píng)分結(jié)果與人評(píng)結(jié)果的一致率和一致性較低,機(jī)器對(duì)這兩類任務(wù)的評(píng)分存在顯著的偏差;機(jī)器對(duì)口頭作文的評(píng)分與人工評(píng)分比較接近,兩者的一致率和一致性均較好;機(jī)評(píng)和人評(píng)的內(nèi)部一致性均比較穩(wěn)定,但機(jī)評(píng)與人評(píng)以及人工評(píng)分員之間的嚴(yán)厲度均有顯著的差異。這些結(jié)果可以對(duì)口語(yǔ)自動(dòng)評(píng)分算法和技術(shù)的優(yōu)化和完善提供參考,也對(duì)現(xiàn)有的評(píng)分模式具有一定的啟發(fā)。 

【文章來(lái)源】:外語(yǔ)研究. 2020,37(04)北大核心CSSCI

【文章頁(yè)數(shù)】:8 頁(yè)

【部分圖文】:

英語(yǔ)口語(yǔ)機(jī)器評(píng)分和人工評(píng)分的對(duì)比研究


訊飛口語(yǔ)自動(dòng)評(píng)分系統(tǒng)所提取的評(píng)分特征

偏差,機(jī)器


圖3是評(píng)分者和任務(wù)的偏差情況。由圖可知,機(jī)器在評(píng)判學(xué)生的朗讀和復(fù)述任務(wù)的表現(xiàn)時(shí)出現(xiàn)了非常顯著的偏差(t朗讀=15.18,t復(fù)述=-10.16),R1和R2對(duì)這兩個(gè)任務(wù)的評(píng)分也有顯著的偏差,但偏差幅度小于機(jī)器:R1和朗讀及復(fù)述的偏差t值分別為-9.15和5.59,R2和兩個(gè)任務(wù)的偏差t值分別為-7.09和8.56。4.討論

平均分,機(jī)器,口頭作文,相關(guān)系數(shù)


本次口語(yǔ)測(cè)試三個(gè)任務(wù)的機(jī)評(píng)和人評(píng)的平均分比較如圖2所示(RA代表機(jī)器,R1~R3代表3位人工評(píng)分員)。由圖可知,朗讀任務(wù)機(jī)評(píng)與人評(píng)的平均分差異較大,機(jī)評(píng)與人評(píng)平均分的差異大于三位評(píng)分員之間的差異;而其他兩個(gè)任務(wù)機(jī)評(píng)與人評(píng)的分差較小,機(jī)評(píng)與人評(píng)的差異小于人與人之間的差異。具體來(lái)講,機(jī)器對(duì)朗讀的打分比3位評(píng)分員都高,機(jī)器與R3分差最。∕D=0.66),與R2的分差最大(MD=3.30);復(fù)述任務(wù)機(jī)器打分偏低,機(jī)器與R2的分差最小(MD=0.21),與R3的差異最大(MD=1.73);機(jī)器和R1對(duì)口頭作文的評(píng)分分差最。∕D=0.45),與R2的分差最大(MD=1.70),機(jī)評(píng)結(jié)果比較接近3位評(píng)分員的平均分(MRA=5.57,MR1~R3=5.16)。結(jié)合機(jī)評(píng)和人評(píng)的一致率來(lái)看(見(jiàn)表1),朗讀任務(wù)機(jī)評(píng)與R3的完全一致率和臨近分?jǐn)?shù)(分差小于2)一致率均遠(yuǎn)高于其他兩位評(píng)分員,復(fù)述任務(wù)機(jī)評(píng)與R2的完全一致率和臨近分?jǐn)?shù)一致率最高,口頭作文機(jī)評(píng)與R1和R3的一致率均比較高。機(jī)器與3位人工評(píng)分員對(duì)三個(gè)任務(wù)的評(píng)分結(jié)果的相關(guān)系數(shù)如表2所示:朗讀的機(jī)評(píng)分與人工分的相關(guān)系數(shù)較低,在0.279~0.469之間,均具有統(tǒng)計(jì)學(xué)上的顯著意義;復(fù)述和口頭作文的機(jī)器與人工評(píng)分結(jié)果呈顯著的中高度相關(guān),相關(guān)系數(shù)在0.600~0.703之間?傮w上機(jī)評(píng)與人評(píng)的相關(guān)性低于人評(píng)之間的一致性系數(shù),但有些任務(wù)中機(jī)器與個(gè)別評(píng)分員的相關(guān)系數(shù)高于人與人之間的相關(guān)系數(shù),例如,口頭作文機(jī)評(píng)與R3的相關(guān)系數(shù)(r=0.703)高于該任務(wù)3個(gè)評(píng)分員兩兩之間的相關(guān)系數(shù)(r1/2=0.663,p<0.01;r1/3=0.653,p<0.01;r2/3=0.619,p<0.01)。

【參考文獻(xiàn)】:
期刊論文
[1]機(jī)助英語(yǔ)聽(tīng)說(shuō)考試計(jì)算機(jī)自動(dòng)評(píng)分的多層面Rasch模型分析[J]. 周燕,曾用強(qiáng).  外語(yǔ)測(cè)試與教學(xué). 2016(01)
[2]智能測(cè)評(píng)技術(shù)在大規(guī)模英語(yǔ)口語(yǔ)考試評(píng)卷中的探索與實(shí)踐[J]. 呂鳴.  中國(guó)考試. 2015(10)
[3]多特征融合的英語(yǔ)口語(yǔ)考試自動(dòng)評(píng)分系統(tǒng)的研究[J]. 李艷玲,顏永紅.  電子與信息學(xué)報(bào). 2012(09)
[4]PETS計(jì)算機(jī)輔助口試自動(dòng)評(píng)分技術(shù)研究[J]. 喬輝,董濱,劉常亮.  外語(yǔ)測(cè)試與教學(xué). 2012(03)
[5]大規(guī)模英語(yǔ)口語(yǔ)考試跟讀題型采用機(jī)器閱卷的可行性分析與實(shí)踐研究[J]. 宮力,梁維謙,丁玉國(guó).  外語(yǔ)電化教學(xué). 2009(02)
[6]大規(guī)模大學(xué)英語(yǔ)口語(yǔ)測(cè)試?yán)首x題型機(jī)器閱卷可行性研究與實(shí)踐[J]. 李萌濤,楊曉果,馮國(guó)棟,吳敏,陳紀(jì)梁,胡國(guó)平.  外語(yǔ)界. 2008(04)



本文編號(hào):2983504

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jiaoyulunwen/xueshengguanli/2983504.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0412b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com