大家上午好!这些天我去的每一个会议,每个人都想谈论AI,这是一件既美妙又可怕的事,但有一个方面我们讨论得不够,那就是在测评和教学中使用人工智能的道德问题。今天我想和大家谈谈英国文化教育协会在评估和教学中使用人工智能时遵循的道德原则,以及我们是如何开发和在具体的项目中使用AI的。
人与机器对话将成为测评常态
我想让你们记住的第一件事是一个三角形,它是由课程设置、教学实施和测评体系三者相互连结而成的综合学习系统,这三个要素相互关联,构成了一个稳固的结构。只有当这三个角紧密相连时,我们的学习系统才能有效运作;如果它们之间缺乏联系,系统就会失效。尽管我们早已认识到这一点,但很少有人去探讨如何驱动综合学习系统正常运行。实际上, 这个系统由标准驱动,包括语言标准和道德标准。尽管不同群体的道德价值观普遍存在差异,但我相信有一些普遍的原则是我们必须遵守的。接下来,我将首先介绍这些原则的制定过程,然后分享我们如何在一个具体项目中应用这些原则。
首先讨论我们所制定的伦理原则,及我们目前如何将道德审计作为一种原则性实践。例如,数年前,我们着手开发一个能够评估互动语言能力的评估系统。众所周知,雅思考试的一个显著优势在于其面对面的测评方式,而在大多数其他考试中,测评实际上是通过录音完成的,这些录音主要测试的是语言的输出能力,而非互动能力。我们的目标是创建一个系统,能够引入互动式的语言评估,让考生能够与某个实体进行真正的互动,最好是与一台机器而非真人互动。因此,我们启动了这个项目。项目启动几个月后,ChatGPT问世,我们就这样幸运地拥有一支优秀的技术团队,ChatGPT的出现帮助我们迅速转向使用大型语言模型,取代了之前在美国主要使用的旧系统。
简单来说,我们的系统是这样的:考生与机器人进行互动对话,完成一个有明确目标的任务。机器人会根据考生的语言水平提供挑战或帮助。这个互动过程会被转换成声音文件,然后转换成文本文件,最后由ChatGPT进行分析和评估,并将结果反馈给考生。虽然理论上听起来简单,但实际上我们花了几年时间才实现完善这一系统,我们称之为GEEP。
今年四月份,我们正式推出了GEEP项目,这是一个全天候在线商务英语学习平台,每周、每天、每小时都可随时访问。这个平台能够根据学习者的需求定制学习主题,并结合了英国文化教育协会教师的现场教学,实现了数字化学习与实时互动的结合。目前,学习者在完成一堂课后,会与一个AI机器人进行互动,以获得形成性反馈,帮助他们提升英语能力。虽然目前这个系统还不会对学生的英语水平做出评估,但我们计划在未来一年内实现这一功能,并将此技术应用于测评中。
设计中的六大伦理让测评产品在道德上无可挑剔
从一开始,我们就认为需要考虑所做事情的道德问题,那么我们要如何开发一个系统呢?在英国文化教育协会,我们有出色的语言测试团队,但在测试伦理方面我们并不专业。虽然我们对测试的各个方面都有所专长,但伦理学并非我们的强项。
因此,我们开始寻找适用的资源。当前,全球已经有许多现成的指导方针、框架和法规,包括中国的立法、欧盟的严格立法以及美国相对宽松的立法。例如,在欧盟,人工智能系统不能为人类做决定,人类是唯一能够做出决策的主体,AI技术只能辅助决策,不能替代人类做决策。在其他地区,法律可能更加灵活,但我们能够综合参考全球各地的不同政策。此外,我们还求助了伦敦大学学院(UCL)的知识实验室(Knowledge Lab Group)。该团队专注于教育的各个方面,特别是教育伦理和人工智能在教育中的伦理问题。
我们与UCL知识实验室合作,制定了一套包含六个原则的伦理框架:尊重人类自主性、隐私与数据治理、公平性、个人与社会环境福祉、透明度以及问责制和监督: