伴随着人工智能的快速发展,中英专家代表就有关人工智能在语言测评中的应用及道德问题进行了圆桌探讨,展望分析AI在语言学习和测评中的应用、挑战和潜力。

圆桌探讨嘉宾:

  • 英国文化教育协会全球英语及考试业务总监马克·沃克
  • 英国文化教育协会英语语言研究总监巴里·奥沙利文教授
  • 上海交通大学外国语学院应用语言学教授金艳
  • 上海市教育考试院命题办副主任徐雯
  • 科大讯飞党委副书记、副总裁任萍萍

 AI应用语言测评面临哪些伦理挑战?

如何确保AI进入语言评测是透明公平的?对此,负责四六级考试设计和研究的金艳教授发表了自己的观点:“我们最大的担忧是考试的试题安全问题。一方面,如果利用了AI的技术比如说大语言模型,那命题素材是不是会被运用于模型训练,是否可以得到安全性的保障?另一方面,我们在考虑命题素材时,有很多文化价值和社会理论方面的考量,但是用AI命题的时候,这些价值观所体现的意识形态领域方面的问题,或者说是政治敏感的问题,能不能得到有效的关注?这是我们目前在自动命题方面比较大的担忧。”

而对于自动评分方面,她也表达了对AI应用最大的担忧就是分数可解释性,“我们得到的分数怎么向学生解释,怎么向用户解释,它代表的是什么含义。分数得不到解释,对教学产生的反馈就是不可控的。针对这方面的问题我们挣扎了很久。学生会不会因为我们用了AI的技术,而选择只跟机器进行交流,机器生成的内容是否真的具有独特性?作为独立的思考者,每个人都应该表达自己的思想,而不是让机器代为表达。如果将自己的思想表达功能完全交给机器,我们就会逐渐变成依赖机器发声的人。长期这样下去,对教学的影响将是极其负面的。” 

巴里·奥沙利文教授提到,当前许多技术驱动的测评体系甚至尚未意识到需要考虑道德问题,比如怎样解决评分系统的偏好和偏见问题,“当我们与技术公司讨论这一问题时,技术人员对我们提出这个问题感到非常吃惊 “。在他看来,”第一步考虑技术可以做什么,第二步才考虑怎样设计命题,这是错误的顺序。首先得考虑要设计什么样的考试,然后再看怎样让技术人员满足测评的需求,这才是正确的逻辑,而不是找技术人员拿一个现成的解决方案。“

伦理问题能否找到有效解决办法?

解决AI的伦理挑战,关键在于要确保所有相关者,包括测评开发者、最终用户以及考生本人,了解人工智能的应用到底意味着什么,对此,徐雯强调:”考试开发者有责任为所有考试结果的使用者提供公正和科学的评估,并确保考生认识到这些结果是公正和科学的产物,这种相互信任的关系建立在透明沟通的基础之上。如果考试开发者不向利益相关者公开信息,可能会遭到对考试依据可信度的质疑。因此,开发者必须告诉所有相关者AI的使用程度以及怎样逐步使用AI的。“

她认为,沟通应涵盖AI的使用方式、使用范围(是否完全依赖AI或有人为调节机制)、AI评分的标准和评估内容等多个方面。例如,如果AI评分侧重于语言复杂度,考生应提前得到通知,而不是自行发现;用于训练AI算法的数据是如何收集、使用以及后续处理?通过让所有考试相关者了解整个研究过程,可以增加他们对考试的信任。” 

同时,金艳教授认为,人的参与能够有效的解决部分问题:“比如可以考虑用人充分介入的方式开展跨界研究和合作,让分数变的更加有意义,让我们的素材安全性得到保障等等。”然而,她也提到,尽管某些问题可以通过人类的深度介入和跨学科合作来解决,例如提升评分系统的意义和保障教学材料的安全性,但仍存在一些更为复杂的挑战,这些挑战涉及学生的学习过程、师生关系、交流方式、学生语言思辨能力的培养以及教学内容的趣味性,这些都是需要长期关注和努力的问题。

人工介入AI测评是必须的吗?

实际上,AI在中国语言测评的应用经历了逐步的探索过程。2004年AI首次在上海、安徽试点用于测试普通话发音水平,通过一年的数据比对机器和人类老师给同一考生打分的结果,验证机器的公平性和可靠性,2009年AI测评才开始在全国普通话测试中推广。

2016年,英语四六级考试开始引入AI评分,直至目前翻译测试中一些低分段的卷子和口语中比较简单的部分如朗读任务直接采用了机评分数,其他部分仍然是人机结合的方式,机器仍旧作为一个辅助的方式,而非一个评分员。

上海高考英语听说考试也采用了机考形式,考试结束后,会进行人工阅卷,抽取样本让人完成评分,以此训练评分模型。模型随后对新的学生作答进行评分,专家评估评分结果,检查系统性问题,并根据需要调整模型,这是定标的过程。定标过程完成后,机器负责评分剩余学生作答,人工评分部分作答,并对机器评分与人工评分差异较大的部分进行最终仲裁。同时,人工参与在质量监控中至关重要,专家会随机抽检,对可能存在的误差进行调整。

上海市教育考试院命题办副主任徐雯表示:“整个阅卷过程中人是贯穿其中的,尽管智能阅卷或技术融入以后,很大的程度上节约了人力的阅卷成本,但是也并没有缩短到很短的时间。“

对于人工完全信任AI评分,她认为在可以预见的未来可能还是一个无法实现的结果。高考是高厉害的考试,成绩在学生录取过程中起了非常大的作用,每个人的未来不可以被机器决定。机器的确很稳定,但稳定不意味着一定。人是不一样的,会有随机的一些因素,可以把一些系统性的东西发现出来,这对考试结果更有科学性和公平性。

对此,科大讯飞任萍萍也表示赞同,“未来一定是人机协同的,一定不属于技术,而是掌握了技术的新人类。未来需要工具,但怎么更好地、更加高效地把工具利用起来才是关键。“

巴里·奥沙利文教授认为,最佳的一个解决方法就是人机结合,因为人和机器擅长不同的东西,有可学互鉴的地方,人和机器都是各有利弊,可以取长补短。

风险犹存 AI机会在何方?

尽管AI技术的应用仍然存在诸多现实的风险,但专家们普遍认同AI在语言测评领域的机遇和价值。

科大讯飞、北京大学、香港大学曾共同完成的一项研究,在全国精选了38所中学,包括重点中学和偏远地区学校,各选取一个班级的60名学生作为实验组。在为期一年的AI技术支持的数学学习实验中,学生对数学的兴趣显著提升,年级排名也有明显进步。特别值得注意的是,经济相对落后地区的学生的学习效果更佳,尤其是班级中成绩较差的1/3学生。这一发现预示着AI技术有望缩小教育差距,尤其是在缺乏优质英语和口语教师的偏远地区,AI技术的应用有望在未来熨平教育鸿沟,带来更多的教育突破。

其他专家也发表了相似的看法,巴里·奥沙利文教授认为:“AI可以解决解决语言测评上很多难题,不仅在高风险的的考试中,而是在形成性评价中,给人们带来更多练习语言的机会。世界上许多语言都面临灭绝的风险,AI的出现可以留住任何一种想要学习的语言,让我们可以开始梦想一个语言不会消亡的世界。” 

金艳教授表示,发展人工智能是一件非常有潜力的事情,“AI的发展需要技术配合才能让我们做的更好一些,不要把个性化的学习变成学生自己的事情,应该在教师的指导监督和辅导下做到个性化的有效学习。“