作文_ GRE作文用AI打分20周年：给中国考生分数高于人类打分

关注尖端科技量子位栗走出凹非寺

量子比特报道|一般信号QbitAI

GRE作文在AI评分。

这本来不是新闻。

但是，根据美国媒体VICE发表的调查，这又成为了热烈讨论的焦点。

VICE对美国50个州进行了调查，发现至少有21个州(包括加利福尼亚州)的教育系统，将AI作为作文评分的主要/第二主要工具用于标准化考试。

青=AI评分，淡蓝色=试行，红=AI评分，桃色=学区，灰=未回应

在这21个州中，只有3个州表明人也参加作文评分的馀下18个州，只能随机抽取5%-20%的作文，请人研究AI给的成绩。

问题是，标准化考试常常作为选拔的依据，左右着人类的未来。 AI一评分，命运就在AI手中。

这时，人们想起了GRERE，从这20年前开始在AI写作文的大前辈。

许多研究表明，包括GRERE评分仪器e-rater在内，许多AI评分文章的机制都有明显的缺陷。

但是，多年来，AI不仅没有被各种作文考试抛弃，而且越来越受欢迎。

因此，Hacker News的网民开始了激烈的讨论，不到一天就有330人。格瑞:机器比人更喜欢中国考生

1999年主办GRE的美国教育考试服务中心( ETS )开始在e-rater上评分作文。

根据公式信息，该自然语言处理( NLP )模型的评价标准有以下8个

·基于词汇考虑的内容分析( contentanalysisbasedonvocabularrymeasures )

词汇复杂性/措辞( Lexical Comlexity/Diction )

·语法错误率( Proportion of Grammar Errors )

·使用错误百分比( Proportion of Usage Errors )

？机械错误百分比( Proportion of Mechanics Errors )

指拼写错误、大小写差异、标点符号错误等技术问题。

·样式注释百分比( Proportion of Style Comments )

例如，某个短语过多、过短的句子过多、过长的句子过多等。

文章组织和发展分数( organizationanddevelopmentscores )

·地道术语( featuresrewardingidiomaticphrasology )

当然，这个AI不仅仅是服务GRE。至少，tofu和GRERE一样，也是ETS制造的测试。

关于该算法的缺陷在哪里，ETS正式做了很多研究，从未隐藏过研究结果。

在1999年、2004年、2007年、2008年、2012年、2018年的作文中，AI给中国大陆考生的分数通常比人的分数高。

相反，在非裔美国人中，AI常常低于人的得分。母语为阿拉伯语、西班牙语、印地语的考生也有同样的经历。就算团队改进了算法，这个问题也没有解决。

ETS的高级研究员说，

如果我们想对某个国家的某个团体友好运算法则，伤害其他团体的可能性很高。

进一步分别观察AI的评分情况。

在所有考生中，e-rater给中国大陆考生的语法( Grammar )和文章技术( Mechanics )得分总体较低

在文章的长短和复杂的单词选择中，中国大陆考生的AI分数超过了平均。最终，AI给大陆考生的总得分总体上被评价得比人高。 GRE作文满分6分，AI平均比人分高1.3分。

相比之下，在非裔美国人中，AI比人的分数平均低0.81个百分点。而且，这只是平均的数据，很多考生比这个差别更大。

无论是1.3还是0.81，在6分制的考试中不是很小的数字，有可能会对考生的成绩产生很大影响。

不仅如此，MIT合作伙伴们还开发了一种叫做BABEL的算法，把复杂的词语排列在一起，得到的文章没有任何意义，但是GRE的在线评价工具ScoreItNow！取得了四分的好成绩。

但是根据ETS，AI不是单独的答案，而是按照AI评分的每篇作文，人们同时评分。然后，把人的评分差异交给第二个人进行判断，得到最终的分数。

因此，ETS认为考生不会受到AI缺陷的不良影响。

但是，比较起来，传统的方法是两个人同时评分文章的AI代替其中一个人评分的话，相当于该人的责任就变成了讨论。

成本相当低，不知道对结果的影响有多大。至少评分机制与AI参与前不同。

另外，AI的存在不仅影响评价，还直接影响考生的考试策略。最近几年，取悦AI的攻略在增加

ChaseDream论坛@竹林中来的人

GRERE有人和AI一起评分。

但是，很多考试直接把作文交给了AI。光靠GRERE算法是有问题的

例如VICE的调查显示，犹他州使用AI作为主要的作文评价工具，已经有很多年了。

州官员说明了理由

手动评分不仅耗费时间，也是本州的一大支出。

所以，在AI评分文章，降低成本的同时，能公平公正吗？

美国研究协会( American Institutes of Research，AIR )是非营利组织，也是犹他州最主要的试验提供者。

关于AI评分的主题，AIR给出了榜样

这个题目是看海牛的画像，考生写观察( a )和推论( b )。

AIR每年都提出评价新主题公平性的报告书。

评价的一个重点是，女学生和少数族裔学生在特定问题上的成绩是否比男性/白人差。该指标被称为“差异问题功能( DIF )”。

报告显示，2017-2018年学年、3-8年作文考试中，有348道题目被判定为女生和少数族裔学生仅有DIF，而男生和白人学生有40道题目有轻微DIF。

另外，被判定为女性和少数族裔学生有严重DIF的问题也有3个。这些主题由专门委员会审查。

DIF的原因可能有很多，但算法偏见是大家最关心的因素。

犹他州的监护人( @dahart )占据了Hacker News讨论版的顶层。

他不喜欢听那些官员的“成本”。他认为教育本来很费时间，并不快而便宜。

他说孩子的作文是机器评分，家人不满意AI的分数，恋人和孩子都哭。

再多一点

当然，AI的作文不仅仅是美国的。

去年《南华早报》报道国内已有6万所学校在AI评分工作中分布于全国各地。

其中，学生提交的英语作业也是机器评分。作文评分系统来自酷文章评分网，理解文字的一般逻辑和含义，对作文的整体质量进行人工合理评价，在文章风格、结构、主题等方面提出建议。

据悉AI和人类教师对作文的评价，92%达成一致。

但是，据评论，同学们也像美国的小伙伴一样，受到了很多不满

这种感情，还是不能越过国境。

参考资料:

https://www.vice.com/en _ us/article/pa7dj9/ flawed-algorithms-are-grading-millions-of-students-es sys

https://www.Washington post.com/news/answer-sheet/WP/2016/05/should-you-trust-a-computer-to-grade-your-childs-writing -在线计算机

ETS发表的许多NLP论文:

https://www.ets.org/research/topics/as _ NLP/writing _ quality /

完了

看原文

作文_ GRE作文用AI打分20周年：给中国考生分数高于人类打分

作文_ GRE作文用AI打分20周年：给中国考生分数高于人类打分的相关文章

广西有那些明星艺人_广西最乱的10个县城

吃橙子的最佳时间_吃橙子的最佳季节

沈阳鞭炮批发价格表

wp10微信下架怎么办_诺基亚wp10能用微信吗

60米扬程潜水泵价格表_潜水泵50米扬程大概多少钱

陆机才多岂自保_陆机才多岂自保下一句

高通骁龙636参数_骁龙636

索尼imx传感器天梯图

中甲图文直播间_中甲直播间

韦氏大辞典_新华字典

第一时间个人网房源网_个人真实房源网

正板官方软件

如何举报微信小程序_兴盛优选怎么举报

自制臭豆腐_怎样做臭豆腐

荣耀v10屏幕解决了吗_荣耀v10屏幕问题

广场舞吉祥安康_云裳广场舞2017年新舞

博士后待遇最高的地方_为什么博士后待遇很高

绩效考核激励_绩效考核内容

在《琉璃美人邪》中与黄对谈:享受演员职业带来的快乐

低速货车标准_货车载重高速与低速标准一样吗

大家都在看

相关专题

作文_ GRE作文用AI打分20周年：给中国考生分数高于人类打分

作文_ GRE作文用AI打分20周年：给中国考生分数高于人类打分的相关文章

广西有那些明星艺人_广西最乱的10个县城

吃橙子的最佳时间_吃橙子的最佳季节

沈阳鞭炮批发价格表

wp10微信下架 怎么办_诺基亚wp10能用微信吗

60米扬程潜水泵价格表_潜水泵50米扬程大概多少钱

陆机才多岂自保_陆机才多岂自保下一句

高通骁龙636参数_骁龙636

索尼imx传感器天梯图

中甲图文直播间_中甲直播间

韦氏大辞典_新华字典

第一时间个人网房源网_个人真实房源网

正板官方软件

如何举报微信小程序_兴盛优选怎么举报

自制臭豆腐_怎样做臭豆腐

荣耀v10屏幕解决了吗_荣耀v10屏幕问题

广场舞吉祥安康_云裳广场舞2017年新舞

博士后待遇最高的地方_为什么博士后待遇很高

绩效考核激励_绩效考核内容

在《琉璃美人邪》中与黄对谈:享受演员职业带来的快乐

低速货车标准_货车载重高速与低速标准一样吗

大家都在看

相关专题

wp10微信下架怎么办_诺基亚wp10能用微信吗