重磅！国内首个基础教育大模型评测场在京发布

今年，北京市将基本建成人工智能赋能学生学习与发展、教师教学方式变革、学生身心健康等5类教育领域典型示范应用项目场景。如何评测大模型在真实教育场景中的表现，为中小学教师根据课程需要选择合适的模型提供参考？

7月13日，北京师范大学举办“京校协同·智启未来”校城融合论坛，并发布“北极星”大模型评测场等人工智能赋能基础教育方面的代表性成果。该评测场也是国内首个基础教育领域大模型评测场。

据介绍，为落实《北京市教育领域人工智能应用工作方案》，在市教委的具体指导帮助和市科委的支持下，北京师范大学联合北京教育科学研究院和中国电子技术标准化研究院等单位先期编制并发布了团体标准《人工智能基础教育大模型评测指标与方法》，规范人工智能在教育领域中的应用。

依据该标准，北京师范大学智能技术与教育应用教育部工程研究中心（以下简称“工程研究中心”）联合北京教育科学研究院、北京智源人工智能研究院研制了大模型评测场“北极星”。北师大人工智能学院副教授王玫介绍，“北极星”突破了传统解题评测局限，更加关注新课标要求的启发引导、素养导向、情境创设等教育能力评估，填补了教育大模型在真实教学场景中的评测空白。

目前，“北极星”V1.0版本正式上线，已全面评测50多个主流大模型，评测榜单将通过网站（www.bnueval.com）向公众公布。

“‘北极星’可以对9门学科，以及智能答疑、口语练习、智能出题等6大教育场景的人工智能应用进行评测，维度多达110余个。评测结果能给研发者优化模型提供一些方向，也能帮助教师依据自己的需求，选择适合自己的产品。”王玫说。

当天，北京师范大学还发布了多项人工智能赋能基础教育方面成果。北京师范大学工程研究中心和北京世纪好未来教育科技有限公司共同研发的基础教育大模型“师承万象”实现了对新课标的深度理解，具备知识理解型智能解题、启发引导式智能答疑、情境创设型智能出题、素养导向型教案生成等教育能力。

目前，“师承万象”已封装为一体化应用系统，入驻市教委建设的“AI应用超市”。北京师范大学工程研究中心、北京市数字教育中心（北京电化教育馆）还发布了联合编写的《人工智能赋能基础教育应用》蓝皮书。蓝皮书梳理了中小学校人工智能应用试点工作情况，总结应用现状，精准提炼当前痛点与挑战，帮助中小学教师和各级教育管理部门有效规避实践探索中的盲目试错风险，为人工智能赋能教育的工作提供参考。