真实评估!北理发布全球首个「全场景教育」基准,支持4000+情境

发布时间:2025-06-03 13:01:48

本文作者:小古

新智元报道

编辑:LRST

【新智元导读】发展教育大模型需要新的数据和评估体系!北京理工大学高扬老师团队推出EduBench,是首个专为教育场景打造的综合评估基准,涵盖9大教育场景、12个多视角评估维度、超4000个教育情境。通过多维度评估指标体系和人工标注一致性计算,确保评估可靠性,助力教育大模型发展,推动教育智能化。

为什么发展教育大模型需要新的数据和Eval体系?

AI赋能教育教学,需要从「经验导向」迈向「证据导向」,真正将AI数据驱动思想赋能到教育场景中,这是核心动力。

教育场景复杂不仅涉及知识深度(基础教育到高等教育)、知识广度(涵盖不同学科),还涉及认知水平不同、个性化需求多样、教学决策性要求等。

现有面向AGI的通用benchmark侧重于知识性的评估,缺乏对真实教育场景的深入探究。

最近,北京理工大学高扬老师团队近期推出了全球首个全面涵盖9大教育场景、12个多视角评估维度、超过4000个教育情境,专为教育场景打造的综合评估基准EduBench。

为了确保评估的全面性与准确性,EduBench特别设计了一套多维度评估指标体系️,再加上与人工标注者的一致性计算,确保了评估的可靠性。

通过实验发现,最先进大模型与人之间的评估认知存在的差异,需要进一步对齐。

论文地址:https://arxiv.org/pdf/2505.16160

代码开源:https://github.com/DIRECT-BIT/EduBench

模型开源:https://huggingface.co/DirectionAI/EDU-Qwen2.5-7B

数据开源:https://huggingface.co/datasets/DirectionAI/EduBench

EduBench的设计考虑到了教育的多样性和复杂性,包含18821条数据,在学生侧和教师侧覆盖了问题解答、个性化学习支持、自动评分、教学资料生成等9大教育场景,涵盖从基础教育到高等教育的多学科和不同难度等级。

通过评估12个关键维度,如场景适应性、事实与推理准确性、教学应用效果等,EduBench能从多个角度精准衡量大语言模型在教育中的表现,帮助研究者重新审视大语言模型在教育中的适用性与潜力。

更令人振奋的是,研究团队还将研究的全部训练数据、模型、测评数据、人工评估数据全面开源,旨在促进教育领域与大模型领域的研究者相互参考与交流,共同推动教育智能化的未来发展。

EduBench:为真实教育场景而生

为了提升大模型在多种真实教育场景下的泛用性,研究团队分别以学生和教师为导向设计了9大教育场景。

学生侧

问题解答(Problem Solving, Q&A):针对不同的难度的知识性问题,智能助手解答题目

错误纠正(Error Correction, EC):用户给出一个题目和一个错误的回答,智能助手找出错误并进行了解释和修改

思路提供(Idea Provision, IP):用户对某个题目或者知识点存在疑问,智能助手提供思路/解释原理并解答疑问

个性化学习支持(Personalized Learning Support, PLS):用户给出学生画像,智能助手设计学习路径

情感支持(Emotional Support, ES):用户说明问题,智能助手对用户进行心理辅导

教师侧

问题生成(Question Generation, QG):用户给出学段、科目、知识点等信息,智能助手按照给定要求生成题目

自动评分(Automatic Grading, AG):用户给出一个题目和一个答案,智能助手判断答案正误并给出评分和理由

教学资料生成(Teaching Material Generation, TMG):用户给出学段、科目、知识点等信息,智能助手按照给定要求生成教学素材

个性化内容创作(Personalized Content Creation, PCC):用户给出学生画像,智能助手规划教学建议

具体情境包括:(9大场景) * (中文 + 英文) * (简单 + 中等 + 困难) * (K-12科目 + 高等教育科目) * (简答 + 单选 + 多选) = 4,019个情境。

EduBench评估

EduBench的评估是分层级体系,包括三个核心维度,每个维度下包含四个子指标。

例如,在场景适应性维度上,评估模型是否能够准确理解并执行教育任务;在事实与推理准确性维度上,重点考察模型输出的事实正确性和推理的逻辑性;在教学应用性维度上,则评估模型是否符合教育原则,并能对学生的学习产生积极影响。

通过这些精细化的评估维度,EduBench不仅为大语言模型在教育领域的应用提供了全面的测量工具,也为未来的模型优化和改进提供了明确的方向。

场景适配性(Scenario Adaptation)

指令遵循与任务完成(Instruction Following & Task Completion)

角色与语气一致性(Role & Tone Consistency)

内容相关性与范围控制(Content Relevance & Scope Control)

场景元素整合能力(Scenario Element Integration)

事实性与推理准确性(Factual & Reasoning Accuracy)

基础事实准确性(Basic Factual Accuracy)

领域知识准确性(Domain Knowledge Accuracy)

推理过程严谨性(Reasoning Process Rigor)

错误识别与纠正精度(Error Identification & Correction Precision)

教学应用性(PedagogicalApplication)

清晰简洁与积极启发(Clarity, Simplicity & Inspiration)

激励引导与积极反馈(Motivation, Guidance & Positive Feedback)

个性化适应与学习支持(Personalization, Adaptation & Learning Support)

高阶思维与技能发展(Higher-Order Thinking & Skill Development)

大模型在真实场景下仍有不足

研究团队使用EduBench对多个主流大语言模型进行了广泛评估,包括DeepSeek R1、DeepSeek V3、Qwen Max等,这些模型包括不同的参数规模和训练方式,涵盖从数十亿到数千亿参数的各种类型。

每条测试集样本根据其所属的任务分类,选取对应的评估维度使用大模型和人类标注分别进行基于给定metric的评估,将模型在每个场景的性能进行量化,下图展示了评估的结果。

评估结果令人关注:即使是在模型评估中表现最强的模型,在人类标注的结果中某些场景的平均得分也未能突破9分大关。

这一结果表明,模型在适应少数特殊教育场景时仍存在明显的不足。

{'姓名':'亚历克斯·约翰逊','年龄':22,'当前技能水平':'初级','学习目标':'在一年内实现流利的会话并理解基本的书面汉语','研究习惯':'喜欢视觉学习材料,最好在早上学习,每天分配1小时用于语言学习','弱点':'发音和字符识别'}根据学生个人资料,提供\「学习路径规划\」和\「个性化建议\」,以JSON格式返回。 Deepseek-V3回复: { "学习路径规划": { "短期目标 (1-3个月)": [ "专注于掌握拼音和基本发音规则。", "学习100个最常用的汉字及其含义。", "通过使用闪卡和视频等视觉辅助练习简单的日常对话。" ], "中期目标 (4-6个月)": [ "扩展词汇量至300-500个,重点关注日常会话主题。", "通过阅读简单的文本或漫画提高汉字识别能力。", "通过慢速音频材料进行基本的听力练习。" ], "长期目标 (7-12个月)": [ "在日常场景中实现会话流利。", "阅读并理解基础中文书写内容,例如短文或消息。", "与母语者或语言交换伙伴练习口语表达。" ] }, "个性化建议": { "学习材料": [ "使用Pleco或Anki等应用进行汉字识别和词汇扩展。", "观看适合初学者的带字幕中文YouTube频道或电视剧。", "利用闪卡、信息图表及图解词典等视觉学习工具。" ], "学习计划": [ "在早晨安排专注学习时段,例如发音练习。", "每天花30分钟进行听力练习,另30分钟进行阅读或写作。" ], "练习策略": [ "录制自己的语音以监测和改善发音。", "加入HelloTalk或Tandem等在线语言交换平台,与母语者交流练习。", "参加中文语言聚会或在线社区以进行沉浸式练习。" ], "弱点提升": [ "通过模仿母语者及使用像Pinyin Trainer这样的应用程序专注改进发音。", "每天练习汉字识别,通过书写汉字和使用间隔重复工具进行巩固。" ] } } 1.3 场景元素整合能力(人类评估): 得分:5/10 原因:推荐视觉工具但未具体说明(如"infographics"类型),晨间学习建议笼统。发音改进策略重复问题描述("mimicking native speakers"),未提出创新方法。 4.2 个性化适应与学习支持(人类评估): 得分:6/10 原因:"join online communities"未说明具体类型,"daily 1 hour"未细化为适合初学者的模块组合。字符练习建议缺乏进阶方案(仅提到"spaced repetition")。

尽管这些模型在大多数常见教育任务中展现了较为出色的表现,但在面对一些复杂或特殊的教育情境时,仍难以做到与人类标注者相匹配。

这种差距可能源于模型对这些场景的理解能力和应对策略的局限性,尤其是在涉及复杂推理、情感识别或个性化反馈的任务中,模型的适应性和准确性仍需进一步提升。

为什么模型给分高于人类评分?

在上表可以清楚地观察到,模型的评分普遍高于人类标注者。在metric和domain两个层面,模型的得分通常大于人类评分近1分。

特别是在Q&A这一领域,模型的得分通常在9分以上,而人类评分仅为6-7分,两者之间2分的差距,反映在具体metric评分细则上存在较大差异。

研究团队认为,这种现象可能由以下两方面原因造成:

模型对评分细则的理解存在偏差,但这一问题可以通过后续训练加以解决,特别是因为当前使用的评估模型尚为通用模型,未经过专门的奖励训练;

现有的大模型不倾向于给出负面反馈,导致模型评估中对用户问题或答案的评价过于宽容。研究团队认为,后续的训练和对齐将有助于缓解这一问题,这也是值得进一步探索的重点方向。

多源知识蒸馏方法使小模型反败为胜

基于EduBench的评估结果,研究团队根据大模型和人类标注员在验证集上的评估结果挑选出了在每个教育场景中表现最为出色的模型,并将这些顶尖模型的知识进行融合,构建成一个多源知识蒸馏源模型组合。

这一创新策略不仅使得各个模型的优势得以有效整合,还为训练小规模模型提供了全新的可能性。通过这一多源知识蒸馏的方式,团队成功将多个优秀模型的知识精华提取,并应用于一个7B教育模型的训练。

实验结果令人震惊——即便是如此小规模的模型,在使用约17000个筛选后的训练样本的情况下,经过蒸馏训练后,能够在多个关键评估指标上,达到与671B的DeepSeek V3相媲美的性能。

这一突破为资源受限的教育场景提供了全新的解决方案,同时也为大语言模型的高效利用开辟了新的路径。

大模型与人类决策有多大差距?

在使用模型进行评估之后,研究团队进一步采用Kendall's W来衡量不同评估模型之间,以及评估模型与人类标注之间的一致性。

图片来源:互联网

整体来看,DeepSeek-V3作为评估模型,与人类标注者的表现展示出了最高的一致性。

尽管模型与人类标注之间的一致性表现得相对明显,但并未达到高度的一致,具体的分数给定上仍存在一定差距。

打分为什么选择Point-wise?Pair-wise有什么缺点

在研究的最初阶段,研究团队采用了pair-wise的评估方式,即让模型从两个答案中选择一个最优答案。

然而,在实验过程中,团队发现了一个问题:模型选择答案的结果受到了两个答案在prompt中组织顺序的显著影响。

这一现象在GPT-4o上表现得尤为明显——当两个答案被对比时,模型倾向于选择排在前面的答案,选择的比例甚至达到了70-80%

这表明,模型的选择过程已经被答案的顺序高度干扰,导致评估结果的偏差。相对而言,QwQ-Plus模型展现出了较高的一致性,其选择结果并未受到答案顺序的明显影响。

基于这一发现,研究团队最终决定转向point-wise评估方式,这种方式不仅更加公平,而且避免了顺序干扰,能够更准确地反映模型在各个维度上的表现。

未来工作

当前所有的问题查询数据均由模型生成,这可能无法全面反映真实或多样化的用户意图。为了进一步提升评估的准确性,研究团队计划加入更多人工编写的查询,以弥补模型生成数据的局限性。

此外,大多数评估指标和任务场景是手动设计的,自动化这些过程将显著提高评估的可扩展性与一致性。研究团队正在探索如何通过自动化手段优化评估流程,确保更广泛的适用性和更高的效率。

研究团队将持续维护该评估基准,形成发展的教育场景数据和更完善的评估体系,助力教育大模型发展和智慧教育推广。

总结

EduBench的发布,为教育大模型的推广提供了科学全面的评估框架和高质量数据资源。它不仅为研究人员提供了深刻的洞察,帮助他们理解并优化大语言模型在教育场景中的表现,还为教育工作者提供了强有力的工具,助力提升教学效率和质量。

随着更多教育场景的不断加入与评估指标的逐步完善,EduBench有望成为推动教育AI发展的核心平台。

研究团队也期待与更多对大语言模型在教育应用方面有兴趣的学者与从业者合作,共同开拓这一领域的潜力,推动教育走向更加个性化、智能化的未来。

参考资料:

https://arxiv.org/pdf/2505.16160

图片来源:互联网

本文转载自互联网,如有侵权,联系删除。

相关文章