MiniMax深夜发布M1:全球首个开源大规模混合架构推理模型

发布时间:2025-06-17 10:02:11

本文作者:小古

6月17日消息,昨晚,MiniMax宣布推出其最新大模型——MiniMax-M1,这是全球首个开源的大规模混合架构的推理模型。

官方表示,M1在生产力复杂场景中的表现已超越国内闭源模型,接近海外最领先的商业模型,同时具备业内最高的性价比。

图片来源:互联网

据介绍,M1的关键技术优势在于支持最高100万Token上下文输入窗口,达到目前业内最长水准,与Google Gemini 2.5 Pro相当,是DeepSeek R1的8倍;并支持最长8万Token的推理输出,远超多数同类模型。这一能力得益于其自主研发的闪电注意力机制主导的混合架构,使得在处理长上下文与深度推理时保持极高的计算效率。

图片来源:互联网

在强化学习训练上,MiniMax采用自主提出的CISPO算法,相比传统RLHF方法显著提升了收敛速度。官方称,在AIME实验中,CISPO训练效率比字节跳动近期提出的DAPO快一倍,优于DeepSeek早期使用的GRPO算法。整个强化训练阶段仅使用512块H800 GPU训练三周,租赁成本控制在53.74万美元,远低于业内普遍成本。

图片来源:互联网

与此同时,MiniMax还宣布M1模型在其APP与Web端提供不限量免费使用,并推出业内低价API服务。其中,0-32k输入长度下的输入价格为0.8元/百万token,输出8元/百万token;32k-128k输入价格为1.2元/百万token,输出16元/百万token;最长128k-1M输入价格为2.4元/百万token,输出24元/百万token。部分定价区间已低于DeepSeek-R1,长上下文能力则领先其不支持的区间。

此外,MiniMax还表示,M1发布仅是开端,接下来四个工作日内还将持续发布更多新产品和更新。(袁宁)

本文来自网易科技报道,更多资讯和深度内容,关注我们。

图片来源:互联网

本文转载自互联网,如有侵权,联系删除。

相关文章