关注尖端科技量子位栗走出凹非寺
量子比特报道|一般信号QbitAI
GRE作文在AI评分。
这本来不是新闻。
但是,根据美国媒体VICE发表的调查,这又成为了热烈讨论的焦点。
VICE对美国50个州进行了调查,发现至少有21个州(包括加利福尼亚州)的教育系统,将AI作为作文评分的主要/第二主要工具用于标准化考试。
青=AI评分,淡蓝色=试行,红=AI评分,桃色=学区,灰=未回应
在这21个州中,只有3个州表明人也参加作文评分的馀下18个州,只能随机抽取5%-20%的作文,请人研究AI给的成绩。
问题是,标准化考试常常作为选拔的依据,左右着人类的未来。 AI一评分,命运就在AI手中。
这时,人们想起了GRERE,从这20年前开始在AI写作文的大前辈。
许多研究表明,包括GRERE评分仪器e-rater在内,许多AI评分文章的机制都有明显的缺陷。
但是,多年来,AI不仅没有被各种作文考试抛弃,而且越来越受欢迎。
因此,Hacker News的网民开始了激烈的讨论,不到一天就有330人。 格瑞:机器比人更喜欢中国考生
1999年主办GRE的美国教育考试服务中心( ETS )开始在e-rater上评分作文。
根据公式信息,该自然语言处理( NLP )模型的评价标准有以下8个
·基于词汇考虑的内容分析( contentanalysisbasedonvocabularrymeasures )
词汇复杂性/措辞( Lexical Comlexity/Diction )
·语法错误率( Proportion of Grammar Errors )
·使用错误百分比( Proportion of Usage Errors )
? 机械错误百分比( Proportion of Mechanics Errors )
指拼写错误、大小写差异、标点符号错误等技术问题。
·样式注释百分比( Proportion of Style Comments )
例如,某个短语过多、过短的句子过多、过长的句子过多等。
文章组织和发展分数( organizationanddevelopmentscores )
·地道术语( featuresrewardingidiomaticphrasology )
当然,这个AI不仅仅是服务GRE。 至少,tofu和GRERE一样,也是ETS制造的测试。
关于该算法的缺陷在哪里,ETS正式做了很多研究,从未隐藏过研究结果。
在1999年、2004年、2007年、2008年、2012年、2018年的作文中,AI给中国大陆考生的分数通常比人的分数高。
相反,在非裔美国人中,AI常常低于人的得分。 母语为阿拉伯语、西班牙语、印地语的考生也有同样的经历。 就算团队改进了算法,这个问题也没有解决。
ETS的高级研究员说,
如果我们想对某个国家的某个团体友好运算法则,伤害其他团体的可能性很高。
进一步分别观察AI的评分情况。
在所有考生中,e-rater给中国大陆考生的语法( Grammar )和文章技术( Mechanics )得分总体较低
在文章的长短和复杂的单词选择中,中国大陆考生的AI分数超过了平均。 最终,AI给大陆考生的总得分总体上被评价得比人高。 GRE作文满分6分,AI平均比人分高1.3分。
相比之下,在非裔美国人中,AI比人的分数平均低0.81个百分点。 而且,这只是平均的数据,很多考生比这个差别更大。
无论是1.3还是0.81,在6分制的考试中不是很小的数字,有可能会对考生的成绩产生很大影响。
不仅如此,MIT合作伙伴们还开发了一种叫做BABEL的算法,把复杂的词语排列在一起,得到的文章没有任何意义,但是GRE的在线评价工具ScoreItNow! 取得了四分的好成绩。
但是根据ETS,AI不是单独的答案,而是按照AI评分的每篇作文,人们同时评分。 然后,把人的评分差异交给第二个人进行判断,得到最终的分数。
因此,ETS认为考生不会受到AI缺陷的不良影响。
但是,比较起来,传统的方法是两个人同时评分文章的AI代替其中一个人评分的话,相当于该人的责任就变成了讨论。
成本相当低,不知道对结果的影响有多大。 至少评分机制与AI参与前不同。
另外,AI的存在不仅影响评价,还直接影响考生的考试策略。 最近几年,取悦AI的攻略在增加
ChaseDream论坛@竹林中来的人
GRERE有人和AI一起评分。
但是,很多考试直接把作文交给了AI。 光靠GRERE算法是有问题的
例如VICE的调查显示,犹他州使用AI作为主要的作文评价工具,已经有很多年了。
州官员说明了理由
手动评分不仅耗费时间,也是本州的一大支出。
所以,在AI评分文章,降低成本的同时,能公平公正吗?
美国研究协会( American Institutes of Research,AIR )是非营利组织,也是犹他州最主要的试验提供者。
关于AI评分的主题,AIR给出了榜样
这个题目是看海牛的画像,考生写观察( a )和推论( b )。
AIR每年都提出评价新主题公平性的报告书。
评价的一个重点是,女学生和少数族裔学生在特定问题上的成绩是否比男性/白人差。 该指标被称为“差异问题功能( DIF )”。
报告显示,2017-2018年学年、3-8年作文考试中,有348道题目被判定为女生和少数族裔学生仅有DIF,而男生和白人学生有40道题目有轻微DIF。
另外,被判定为女性和少数族裔学生有严重DIF的问题也有3个。 这些主题由专门委员会审查。
DIF的原因可能有很多,但算法偏见是大家最关心的因素。
犹他州的监护人( @dahart )占据了Hacker News讨论版的顶层。
他不喜欢听那些官员的“成本”。 他认为教育本来很费时间,并不快而便宜。
他说孩子的作文是机器评分,家人不满意AI的分数,恋人和孩子都哭。
再多一点
当然,AI的作文不仅仅是美国的。
去年《南华早报》报道国内已有6万所学校在AI评分工作中分布于全国各地。
其中,学生提交的英语作业也是机器评分。 作文评分系统来自酷文章评分网,理解文字的一般逻辑和含义,对作文的整体质量进行人工合理评价,在文章风格、结构、主题等方面提出建议。
据悉AI和人类教师对作文的评价,92%达成一致。
但是,据评论,同学们也像美国的小伙伴一样,受到了很多不满
这种感情,还是不能越过国境。
参考资料:
https://www.vice.com/en _ us/article/pa7dj9/ flawed-algorithms-are-grading-millions-of-students-es sys
https://www.Washington post.com/news/answer-sheet/WP/2016/05/should-you-trust-a-computer-to-grade-your-childs-writing -在线计算机
ETS发表的许多NLP论文:
https://www.ets.org/research/topics/as _ NLP/writing _ quality /
完了
看原文