作文_ GRE作文用AI打分20周年:给中国考生分数高于人类打分

关注尖端科技量子位栗走出凹非寺

量子比特报道|一般信号QbitAI

GRE作文在AI评分。

这本来不是新闻。

但是,根据美国媒体VICE发表的调查,这又成为了热烈讨论的焦点。

VICE对美国50个州进行了调查,发现至少有21个州(包括加利福尼亚州)的教育系统,将AI作为作文评分的主要/第二主要工具用于标准化考试。

青=AI评分,淡蓝色=试行,红=AI评分,桃色=学区,灰=未回应

在这21个州中,只有3个州表明人也参加作文评分的馀下18个州,只能随机抽取5%-20%的作文,请人研究AI给的成绩。

问题是,标准化考试常常作为选拔的依据,左右着人类的未来。 AI一评分,命运就在AI手中。

这时,人们想起了GRERE,从这20年前开始在AI写作文的大前辈。

许多研究表明,包括GRERE评分仪器e-rater在内,许多AI评分文章的机制都有明显的缺陷。

但是,多年来,AI不仅没有被各种作文考试抛弃,而且越来越受欢迎。

因此,Hacker News的网民开始了激烈的讨论,不到一天就有330人。 格瑞:机器比人更喜欢中国考生

1999年主办GRE的美国教育考试服务中心( ETS )开始在e-rater上评分作文。

根据公式信息,该自然语言处理( NLP )模型的评价标准有以下8个

·基于词汇考虑的内容分析( contentanalysisbasedonvocabularrymeasures )

词汇复杂性/措辞( Lexical Comlexity/Diction )

·语法错误率( Proportion of Grammar Errors )

·使用错误百分比( Proportion of Usage Errors )

? 机械错误百分比( Proportion of Mechanics Errors )

指拼写错误、大小写差异、标点符号错误等技术问题。

·样式注释百分比( Proportion of Style Comments )

例如,某个短语过多、过短的句子过多、过长的句子过多等。

文章组织和发展分数( organizationanddevelopmentscores )

·地道术语( featuresrewardingidiomaticphrasology )

当然,这个AI不仅仅是服务GRE。 至少,tofu和GRERE一样,也是ETS制造的测试。

关于该算法的缺陷在哪里,ETS正式做了很多研究,从未隐藏过研究结果。

在1999年、2004年、2007年、2008年、2012年、2018年的作文中,AI给中国大陆考生的分数通常比人的分数高。

相反,在非裔美国人中,AI常常低于人的得分。 母语为阿拉伯语、西班牙语、印地语的考生也有同样的经历。 就算团队改进了算法,这个问题也没有解决。

ETS的高级研究员说,

如果我们想对某个国家的某个团体友好运算法则,伤害其他团体的可能性很高。

进一步分别观察AI的评分情况。

在所有考生中,e-rater给中国大陆考生的语法( Grammar )和文章技术( Mechanics )得分总体较低

在文章的长短和复杂的单词选择中,中国大陆考生的AI分数超过了平均。 最终,AI给大陆考生的总得分总体上被评价得比人高。 GRE作文满分6分,AI平均比人分高1.3分。

相比之下,在非裔美国人中,AI比人的分数平均低0.81个百分点。 而且,这只是平均的数据,很多考生比这个差别更大。

无论是1.3还是0.81,在6分制的考试中不是很小的数字,有可能会对考生的成绩产生很大影响。

不仅如此,MIT合作伙伴们还开发了一种叫做BABEL的算法,把复杂的词语排列在一起,得到的文章没有任何意义,但是GRE的在线评价工具ScoreItNow! 取得了四分的好成绩。

但是根据ETS,AI不是单独的答案,而是按照AI评分的每篇作文,人们同时评分。 然后,把人的评分差异交给第二个人进行判断,得到最终的分数。

因此,ETS认为考生不会受到AI缺陷的不良影响。

但是,比较起来,传统的方法是两个人同时评分文章的AI代替其中一个人评分的话,相当于该人的责任就变成了讨论。

成本相当低,不知道对结果的影响有多大。 至少评分机制与AI参与前不同。

另外,AI的存在不仅影响评价,还直接影响考生的考试策略。 最近几年,取悦AI的攻略在增加

ChaseDream论坛@竹林中来的人

GRERE有人和AI一起评分。

但是,很多考试直接把作文交给了AI。 光靠GRERE算法是有问题的

例如VICE的调查显示,犹他州使用AI作为主要的作文评价工具,已经有很多年了。

州官员说明了理由

手动评分不仅耗费时间,也是本州的一大支出。

所以,在AI评分文章,降低成本的同时,能公平公正吗?

美国研究协会( American Institutes of Research,AIR )是非营利组织,也是犹他州最主要的试验提供者。

关于AI评分的主题,AIR给出了榜样

这个题目是看海牛的画像,考生写观察( a )和推论( b )。

AIR每年都提出评价新主题公平性的报告书。

评价的一个重点是,女学生和少数族裔学生在特定问题上的成绩是否比男性/白人差。 该指标被称为“差异问题功能( DIF )”。

报告显示,2017-2018年学年、3-8年作文考试中,有348道题目被判定为女生和少数族裔学生仅有DIF,而男生和白人学生有40道题目有轻微DIF。

另外,被判定为女性和少数族裔学生有严重DIF的问题也有3个。 这些主题由专门委员会审查。

DIF的原因可能有很多,但算法偏见是大家最关心的因素。

犹他州的监护人( @dahart )占据了Hacker News讨论版的顶层。

他不喜欢听那些官员的“成本”。 他认为教育本来很费时间,并不快而便宜。

他说孩子的作文是机器评分,家人不满意AI的分数,恋人和孩子都哭。

再多一点

当然,AI的作文不仅仅是美国的。

去年《南华早报》报道国内已有6万所学校在AI评分工作中分布于全国各地。

其中,学生提交的英语作业也是机器评分。 作文评分系统来自酷文章评分网,理解文字的一般逻辑和含义,对作文的整体质量进行人工合理评价,在文章风格、结构、主题等方面提出建议。

据悉AI和人类教师对作文的评价,92%达成一致。

但是,据评论,同学们也像美国的小伙伴一样,受到了很多不满

这种感情,还是不能越过国境。

参考资料:

https://www.vice.com/en _ us/article/pa7dj9/ flawed-algorithms-are-grading-millions-of-students-es sys

https://www.Washington post.com/news/answer-sheet/WP/2016/05/should-you-trust-a-computer-to-grade-your-childs-writing -在线计算机

ETS发表的许多NLP论文:

https://www.ets.org/research/topics/as _ NLP/writing _ quality /

完了

看原文

大家都在看

相关专题