纽约时报写作竞赛 被算法指控作弊
对于远程监控考生的公司来说,大流行是一个繁荣时期,因为将一大群人聚集在一个房间里成为一种公共卫生危害。突然之间,数百万人被迫独自在家中使用笔记本电脑参加律师考试、测试和测验。为了防止作弊的诱惑,并抓住那些作弊的人,远程监考公司提供了网络浏览器扩展程序,可以检测击键和光标移动,从计算机的麦克风收集音频,并记录屏幕和来自计算机摄像头的馈送,将执法部门、雇主和家庭虐待者使用的监控方法带入学术环境。
今年,一名在社区大学上生物课的佛罗里达州青少年收到了令人不安的笔记。一家名为Honorlock的初创公司在二月份的一次考试中将她标记为可疑。她在给《纽约时报》的一封电子邮件中说,她是一名黑人女性,“被算法错误地指控为学术不诚实”。
然而,发生的事情比简单的算法错误要复杂得多。它涉及几个人,学术官僚机构和亚马逊名为Rekognition的自动面部检测工具。尽管收集了大量的数据,包括17岁的女孩和她参加考试时的屏幕录音,但作弊的指控最终还是人类的判断:把目光从屏幕上移开是否意味着她在作弊?
对于远程监控考生的公司来说,大流行是一个繁荣时期,因为将一大群人聚集在一个房间里成为一种公共卫生危害。突然之间,数百万人被迫独自在家中使用笔记本电脑参加律师考试、测试和测验。为了防止作弊的诱惑,并抓住那些作弊的人,远程监考公司提供了网络浏览器扩展程序,可以检测击键和光标移动,从计算机的麦克风收集音频,并记录屏幕和来自计算机摄像头的馈送,将执法部门、雇主和家庭虐待者使用的监控方法带入学术环境。
Honorlock总部位于佛罗里达州博卡拉顿,由几位商学院毕业生创立,他们对他们认为是游戏测试的同学感到沮丧。这家初创公司在 2021 年进行了 5 万次考试,每次考试收费约 10 美元或每名学生收取 40 美元的费用,以涵盖课程中的所有考试。Honorlock已经从投资者那里筹集了<>万美元,其中绝大多数是自大流行开始以来。
保持考生的诚实已经成为一个价值数百万美元的行业,但Honorlock及其竞争对手,包括ExamSoft,ProctorU和Proctorio,在此过程中面临着重大反弹:广泛的激进主义,媒体对该技术问题的报道,甚至参议院的调查。一些受到监控的考生对该软件的侵入性、故障、作弊的虚假指控以及未能对所有类型的人同样有效感到沮丧。
这位佛罗里达少年是被指控作弊者收到对她不利的证据的罕见例子:她长达一小时的Honorlock录音中的50秒剪辑。她要求不要使用她的名字,因为与学术不诚实相关的污名。
标记
这名少年正在参加一个特殊计划的最后一年,以获得她的高中文凭和副学士学位。其他近40名学生在少年的生物课上,但他们从未见过面。这门课来自布劳沃德学院,完全是远程和异步的。
甚至在大流行之前,异步在线教育就在增长。它为学生提供了更灵活的时间表,但它也有缺点。去年,一名艺术史专业的学生对录制的讲座有疑问,他试图给他的教授发电子邮件,发现这名男子在近两年前就去世了。
这位佛罗里达少年的生物学教授乔内尔·奥里奇(Jonelle Orridge)还活着,但距离很远,她通过电子邮件与学生的互动,因为她分配了阅读和YouTube视频。今年二月的考试是这名少年在班上参加的第二次考试。她在北劳德代尔的客厅里设置了笔记本电脑,确保遵循课程大纲和Honorlock下拉菜单中列出的一长串规则:不要吃或喝,使用电话,房间里有其他人,看着屏幕外阅读笔记,等等。
这名学生必须在她的笔记本电脑摄像头前摆姿势拍照,出示她的学生证,然后拿起她的笔记本电脑,用相机对房间进行360度扫描,以证明她没有任何违禁品。她说,她不介意这些,因为她希望这些措施能防止其他人作弊。
“你被Honorlock标记了,”Orridge博士写道。“在审查了你的视频后,观察到你在回答问题之前经常向下看和远离屏幕。
她在考试中得了零分,这件事正在提交给学生事务主任。“如果你被发现对学术不诚实负责,零分将保持不变,”奥里奇博士写道。
“这一定是一个错误,”这名学生在一封电子邮件中回答道。“我在学术上并不诚实。往下看并不代表学术不诚实。
“神的话语”
《纽约时报》审查了这段视频。在播放少年的视频之前,其他几名学生的荣誉锁录音在屏幕截图中短暂可见。
学生和她的屏幕是可见的,时间戳的部分日志也是可见的,包括至少一个危险信号,这意味着高度可疑的行为,就在她测试的一分钟后。当学生在上午8:29开始考试时,她滚动浏览四个问题,似乎在阅读完每个问题后低头看,一次长达10秒。她微微动了动。在50秒的剪辑中,她没有回答任何问题。
不可能肯定地说出视频中发生了什么。人工智能技术做对了,她低头了。但是要做什么呢?她可能盯着桌子、智能手机或笔记。视频模棱两可。
她说,当学生通过视频与院长和奥里奇博士会面时,她告诉他们,她低头思考,她摆弄双手以慢跑她的记忆。他们没有动摇。这名学生被发现对“不遵守指示”负有“责任”,导致考试零分,记录被警告。
“谁在考试期间一直盯着考试?太荒谬了。这不是人类的工作方式,“数字版权组织电子前沿基金会(Electronic Frontier Foundation)的技术专家库珀·昆廷(Cooper Quintin)说。“正常行为会受到这个软件的惩罚。”
在检查了达特茅斯学院(Dartmouth College)医学生声称错误标记他们的在线监考软件后,昆廷建议学校让外部专家审查作弊的证据。这些系统最严重的缺陷可能是人类的缺陷:当人工智能软件发出警报时,教育工作者反应过度。
“学校似乎把它当作上帝的话语,”昆廷说。“如果电脑说你在作弊,你一定是在作弊。
Honorlock的发言人苔丝·米切尔(Tess Mitchell)表示,该公司的职责不是建议学校如何处理其产品标记的行为。
“在任何情况下,我们都不会明确地识别'作弊者'——最终决定和行动方案取决于教师和学校,就像在课堂环境中一样,”米切尔说。“解释学生的行为可能具有挑战性。这就是我们不这样做的原因。
Orridge博士没有回应本文的评论请求。布劳沃德学院的一位女发言人表示,由于学生隐私法,她无法讨论此案。她在一封电子邮件中说,教师们对他们在Honorlock报告中看到的内容“进行了最佳判断”。她说,对不诚实行为的第一次警告会出现在学生的记录中,但不会产生更严重的后果,例如阻止学生毕业或将学分转移到另一所机构。
谁决定
Honorlock此前没有透露其人工智能的工作原理,但该公司发言人透露,该公司使用亚马逊于2016年开始销售的图像分析工具Rekognition进行面部检测。Rekognition 软件会查找面部特征点(鼻子、眼睛、眉毛、嘴巴),并返回一个置信度分数,即屏幕上的内容是一张脸。它还可以推断面部的情绪状态、性别和角度。
Honorlock总裁兼首席运营官布兰登·史密斯(Brandon Smith)说,如果它检测到房间里有多张脸,或者考生的脸消失了,Honorlock会将应试者标记为可疑,这可能是当人们沮丧地用手遮住脸时发生的。
Honorlock有时确实使用人类员工来监控考生;如果考试中有大量标志,“现场监考人员”将通过聊天弹出,以了解发生了什么。最近,这些监考人员发现 Rekognition 错误地将照片或海报中的面孔注册为房间里的其他人员。
当这样的事情发生时,Honorlock告诉亚马逊的工程师。“他们获取我们的真实数据,用它来改进他们的人工智能,”史密斯说。
Rekognition应该是Honorlock一直在使用的更进一步。史密斯说,谷歌以前的面部检测工具在检测各种肤色的人的面部方面更差。
但Rekognition也被指责有偏见。在一系列研究中,算法正义联盟(Algorithmic Justice League)的计算机研究员兼执行董事乔伊·布兰维尼(Joy Buolamwini)发现,包括Rekognition在内的性别分类软件对肤色较深的女性效果最差。
确定一个人的性别不同于检测或识别人脸,但Buolamwini博士认为她的发现是煤矿中的金丝雀。她在2019年写道:“如果你销售一个被证明对人脸有偏见的系统,那么你的其他基于人脸的产品是否也完全没有偏见是值得怀疑的。
《纽约时报》通过Amazon Rekognition分析了该学生的Honorlock视频中的图像。99.9%的人相信有一张脸,而且是悲伤的,59%的人相信学生是男人。
Buolamwini博士说,佛罗里达州学生的肤色和性别应该成为她试图清除自己名字的一个考虑因素,无论它们是否影响算法的性能。
“无论它在技术上是否与种族或性别有关,当机器标签助长确认偏见时,对有色人种学生的污名和假设可能会加剧,”Buolamwini博士在一封电子邮件中写道。
人为因素
随着大流行的结束,考生可以再次亲自聚会,远程监考行业可能很快就会需求下降,面临的审查也少得多。然而,在大流行期间围绕该技术的强烈行动主义确实导致至少一家公司对其产品进行了重大更改。
Honorlock的竞争对手ProctorU不再提供仅使用AI的产品,该产品会标记视频供教授查看。
“教师没有时间,培训或能力来做或正确地做这件事,”ProctorU的创始人Jarrod Morgan说。对ProctorU内部数据的审查发现,被标记行为的视频只有11%的时间被打开。
现在,所有可疑行为都由该公司大约 1,300 名监考人员中的一名进行审查,其中大多数都位于国外更便宜的劳动力市场。摩根说,这些承包商经过严格的培训,只有在有确凿证据表明应试者正在接受帮助的情况下,才会“确认违规行为”。ProctorU 去年进行了 200 万次考试;据该公司称,在分析其中000万项测试时,发现超过7万项(约<>%)涉及某种学术不端行为。
这名少年本月毕业于布劳沃德学院。她仍然对被贴上作弊者的标签感到心烦意乱,并担心这种情况可能会再次发生。
“我现在试图在测试期间变得像人体模特一样,”她说。