英国文化教育协会英语语言研究总监巴里·奥沙利文教授 ©

British Council

大家上午好!这些天我去的每一个会议,每个人都想谈论AI,这是一件既美妙又可怕的事,但有一个方面我们讨论得不够,那就是在测评和教学中使用人工智能的道德问题。今天我想和大家谈谈英国文化教育协会在评估和教学中使用人工智能时遵循的道德原则,以及我们是如何开发和在具体的项目中使用AI的。

人与机器对话将成为测评常态

我想让你们记住的第一件事是一个三角形,它是由课程设置、教学实施和测评体系三者相互连结而成的综合学习系统,这三个要素相互关联,构成了一个稳固的结构。只有当这三个角紧密相连时,我们的学习系统才能有效运作;如果它们之间缺乏联系,系统就会失效。尽管我们早已认识到这一点,但很少有人去探讨如何驱动综合学习系统正常运行。实际上, 这个系统由标准驱动,包括语言标准和道德标准。尽管不同群体的道德价值观普遍存在差异,但我相信有一些普遍的原则是我们必须遵守的。接下来,我将首先介绍这些原则的制定过程,然后分享我们如何在一个具体项目中应用这些原则。

首先讨论我们所制定的伦理原则,及我们目前如何将道德审计作为一种原则性实践。例如,数年前,我们着手开发一个能够评估互动语言能力的评估系统。众所周知,雅思考试的一个显著优势在于其面对面的测评方式,而在大多数其他考试中,测评实际上是通过录音完成的,这些录音主要测试的是语言的输出能力,而非互动能力。我们的目标是创建一个系统,能够引入互动式的语言评估,让考生能够与某个实体进行真正的互动,最好是与一台机器而非真人互动。因此,我们启动了这个项目。项目启动几个月后,ChatGPT问世,我们就这样幸运地拥有一支优秀的技术团队,ChatGPT的出现帮助我们迅速转向使用大型语言模型,取代了之前在美国主要使用的旧系统。 

简单来说,我们的系统是这样的:考生与机器人进行互动对话,完成一个有明确目标的任务。机器人会根据考生的语言水平提供挑战或帮助。这个互动过程会被转换成声音文件,然后转换成文本文件,最后由ChatGPT进行分析和评估,并将结果反馈给考生。虽然理论上听起来简单,但实际上我们花了几年时间才实现完善这一系统,我们称之为GEEP。 

今年四月份,我们正式推出了GEEP项目,这是一个全天候在线商务英语学习平台,每周、每天、每小时都可随时访问。这个平台能够根据学习者的需求定制学习主题,并结合了英国文化教育协会教师的现场教学,实现了数字化学习与实时互动的结合。目前,学习者在完成一堂课后,会与一个AI机器人进行互动,以获得形成性反馈,帮助他们提升英语能力。虽然目前这个系统还不会对学生的英语水平做出评估,但我们计划在未来一年内实现这一功能,并将此技术应用于测评中。 

设计中的六大伦理让测评产品在道德上无可挑剔

从一开始,我们就认为需要考虑所做事情的道德问题,那么我们要如何开发一个系统呢?在英国文化教育协会,我们有出色的语言测试团队,但在测试伦理方面我们并不专业。虽然我们对测试的各个方面都有所专长,但伦理学并非我们的强项。

因此,我们开始寻找适用的资源。当前,全球已经有许多现成的指导方针、框架和法规,包括中国的立法、欧盟的严格立法以及美国相对宽松的立法。例如,在欧盟,人工智能系统不能为人类做决定,人类是唯一能够做出决策的主体,AI技术只能辅助决策,不能替代人类做决策。在其他地区,法律可能更加灵活,但我们能够综合参考全球各地的不同政策。此外,我们还求助了伦敦大学学院(UCL)的知识实验室(Knowledge Lab Group)。该团队专注于教育的各个方面,特别是教育伦理和人工智能在教育中的伦理问题。 

我们与UCL知识实验室合作,制定了一套包含六个原则的伦理框架:尊重人类自主性、隐私与数据治理、公平性、个人与社会环境福祉、透明度以及问责制和监督:

六个原则的伦理框架 ©

British Council

UCL 研发的Audit-D审计系统 ©

British Council

现在让我们来简单解析以上六个原则:

首先是尊重人的自主性,包括自主、尊严和自由。隐私和数据管理非常重要,因为我们必须遵守不同国家的法律,充分考虑各国法律的差异,但我们要始终记住,法律的目的是为了帮助和支持人们。所以,这一切都是以人为本。公平性当然是指在我们的评估中不歧视任何人,确保每个人都能得到最公正的结果。昨天我们有幸参观了教育部教育考试院的一个雅思考试中心,在那里为每位考生提供的支持都令人印象深刻,包括为有特殊需求的人准备的特殊房间,各种方便残障人士的设施,甚至可以调节高度的桌子,这些都非常重要。

我们还要考虑到个人、社会和环境福祉,尤其是环境问题。人们可能没有意识到这一点。我来自爱尔兰,那里有很多大型科技公司,许多公司的欧洲总部甚至世界总部或数据中心都设在爱尔兰。如果你在欧盟寻找数据,通常会在爱尔兰的数据中心找到。数据中心会消耗大量电力,实际上,数据中心在爱尔兰消耗了所有电力的23%,而且在未来几年这个数字还可能会再翻倍。虽然我不知道电力将从何而来,但我们必须考虑环境、社会和个人因素。

另外,我们还需要考虑透明度问题。目前市面上有很多技术,如果你去研究使用这些技术的考试,你会好奇它们是怎么做到的?很可能的答案是“我们不知道”,因为它们通常不透明。我们不知道这些系统是如何运作的,不知道已经做了哪些研究,不知道它们采取了什么方法。比如,人们会关心这些系统中的偏见问题,这些科技公司是否对他们带到考试中的解决方案进行了偏见分析?在很多国际测试中,使用了多种技术,但是它们既没有发布任何与伦理相关的内容,也没有发布任何可追溯技术使用方法的内容。所以我们不知道它们的系统是如何工作的,我们不知道它们的测评系统是否存在偏差。对我们英国文化教育协会来说,这是一个警钟。因此,在我们所做的工作中,我们需要确保伦理和偏差都被充分纳入考量。

最后,我们还需要考虑问责制和监督,或者说伦理审计。我们面临的一大问题是如何将这六大原则付诸实践。原则本身很棒,但关键在于该如何实际运用它们,让它们有效支持我们的工作。因此,我们决定请UCL的团队帮助我们将这些原则付诸实践。幸运的是,UCL的团队有一个名为Audit-D的审计系统,这是一个循环的审计流程。这个系统包含七个要素,它们相互之间有反馈机制。

UCL 研发的Audit-D审计系统

我们的目标是创建一个持续迭代的审计系统。这意味着,从项目开始到结束,你都要做伦理审计,而不是仅仅在项目开始时做一次。你不能在做完一次伦理审计后就沾沾自喜地说,我们已经完成了伦理工作。实际上,整个项目过程中,从开始到交付,都必须持续地考虑伦理问题。

我们所做的伦理决策对我们测评工具的设计产生了显著的影响,我们现在能够清楚地展示这些伦理选择是如何塑造我们的设计的,这些影响贯穿于我们模型的七个发展和部署阶段,这让我们深刻认识到伦理方法的重要性。

最后,我希望大家记住的主要信息是,无论你在教育领域从事何种工作——教学、学习或是测评相关,在你考虑引入技术的时候,从最初的构想到最终的教育技术产品,都必须将伦理纳入考量。我们称之为“设计中的伦理” (Ethics by Design)。

谢谢大家!