性能比肩DeepSeek-R1,MiniMax仅花380万训出推理模型性价比新王_每日快讯(日常热点指南)

性能比肩DeepSeek-R1,MiniMax仅花380万训出推理模型性价比新王


性能比肩DeepSeek-R1,MiniMax仅花380万训出推理模型性价比新王

  2025-06-19 01:40:52     简体|繁體
http://mrkx.qghjm.com/1157277.html

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

国产推理大模型又有重磅选手。

MiniMax开源MiniMax-M1,迅速引起热议。

这个模型有多猛?直接上数据:

MiniMax团队透露,只用了3周时间、512块H800GPU就完成强化学习训练阶段,算力租用成本仅53.47万美元(约383.9万元)。

不仅如此,在多个基准测试上MiniMax-M1的表现可比或超越DeepSeek-R1、Qwen3等多个开源模型,在工具使用和部分软件工程等复杂任务上甚至超越了OpenAIo3和Claude4Opus。

MiniMax-M1实战表现如何?官方给出了一句话生成迷宫小游戏的Demo。

目前模型权重已可在HuggingFace下载,技术报告同步公开。

同时已集成到MiniMaxChat网页版,可在线试玩。

混合注意力架构

MiniMax-M1一大技术亮点是采用了LightningAttention机制的混合注意力架构。

传统的Transformer架构有个致命缺陷:计算复杂度是平方级,这意味着当模型进行更长的推理时,计算成本会急剧上升。

虽然之前有各种优化方案,比如稀疏注意力、线性注意力等,但在大规模推理模型上都没有得到充分验证。

LightningAttention最早由上海AILab团队提出,此前已应用到MiniMax-01模型中。

具体来说,LightningAttention把注意力计算分成块内和块间两部分,块内用传统注意力计算,块间用线性注意力的核技巧,避免了累积求和操作(cumsum)拖慢速度。

LightningAttention还采用了分块技术(tiling)充分利用GPU硬件,让内存使用更高效,训练速度不随序列长度增加而变慢。

MiniMax-M1这次是在每7个LightningAttention的Transnormer块后接1个传统SoftmaxAttention的Transformer块。

这种设计理论上可以让推理长度高效扩展到数十万个token。

更多LightningAttention的介绍,可以看量子位与MiniMax高级研究总监钟怡然的对话:

MiniMax押注线性注意力,让百万级长文本只用1/2700算力|对话MiniMax-01架构负责人钟怡然

强化学习CISPO算法

除了架构创新,MiniMax团队在提升训练效率上也有新招。

他们发现,传统的PPO/GRPO算法在处理混合架构时会出现严重问题。具体来说,那些对推理至关重要的“反思”token(如However、Wait、Aha等)通常概率很低,在策略更新时很容易被裁剪掉,导致模型无法学会长链推理。

为此,团队提出了全新的CISPO(ClippedIS-weightPolicyOptimization)算法。

与传统方法裁剪token更新不同,CISPO选择裁剪重要性采样权重,这样可以保留所有token的梯度贡献,特别是在长响应中至关重要。

在基于Qwen2.5-32B模型的对照实验中,CISPO不仅显著超越了GRPO和DAPO,还实现了2倍的训练加速,也就是用一半的训练步数就能达到DAPO的性能。

当然,将强化学习扩展到这种混合架构并非一帆风顺。团队遇到了一系列独特挑战,比如训练和推理内核之间的精度不匹配问题。他们发现LMHead的高幅度激活是误差的主要来源,通过将输出头的精度提升到FP32,成功将训练和推理概率的相关性从0.9x提升到0.99x。

此外,他们还开发了基于token概率的早停机制,当连续3000个token的概率都超过0.99时就终止生成,有效防止了模型陷入重复循环。

MiniMax-M1的成功还离不开精心设计的训练流程。

首先,团队在MiniMax-Text-01的基础上继续预训练了7.5万亿token,重点强化了STEM、代码和推理相关内容,占比提升到70%。接着进行监督微调,注入链式思考(CoT)模式,为强化学习打下基础。

在强化学习阶段构建了丰富的训练环境。

对于可验证的任务,不仅包含了数学推理和竞赛编程,还利用SynLogic框架合成了41种逻辑推理任务的5.3万个样本。以及构建了基于SWE-bench的真实软件工程环境,让模型在沙箱中实际执行代码,通过测试用例的通过率作为奖励信号。

对于无法用规则验证的通用任务,使用生成式奖励模型来提供反馈,特别关注了奖励模型的长度偏见问题,也就是模型可能会为了获得高分而生成冗长但无实质内容的回答。通过在线监控和动态调整,成功避免了这种”奖励黑客”行为。

上下文窗口的扩展则使用阶段性扩展策略,从4万逐步增加到4.8万、5.6万、6.4万、7.2万,最终达到8万,每个阶段都要等到困惑度收敛且99分位输出长度接近当前限制时才进入下一阶段。

最终,MimiMax-M1在数学推理、长上下文理解、工具使用和软件工程等多个领域表现出色,完整评估结果如下:

OneMoreThing

在MiniMax官方发布公告中透露,这只是为期5天的“MiniMaxWeek”活动的第一天。

随后海螺AI账号也确认即将推出更多内容。

顺着这个线索,我们发现Hailuo02视频模型出现在AI视频竞技场中,已迅速来到图生视频排行榜第二。

关于Hailuo02和MiniMax将在一周内发布的其他内容,量子位也会持续关注。

在线试玩:

https://chat.minimax.io

GitHub:

https://github.com/MiniMax-AI/MiniMax-M1

HuggingFace:

https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

论文:

https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf

参考链接:

[1]https://x.com/MiniMax__AI/status/1934637031193514237

[2]https://artificialanalysis.ai/text-to-video/arena?tab=leaderboard&input=image

海量资讯、精准解读,尽在新浪财经APP

编辑:财经 来源:市场资讯

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2025年 » « 07月 »
    123456
    78910111213
    14151617181920
    21222324252627
    28293031

    最新资讯

    [代运营托管]小护士检测仪,半导体治疗仪,护心仪,血压计, 中医课程 ,食疗养生,血糖贴免领量大
  • 2025-06-20 02:49:02

     

    [代运营托管]纯视频号小护士,激光治疗仪,血压计,益生菌,驼奶,艾灸罐,泡酒瓶,食疗养生量大
  • 2025-06-20 02:42:57

     

    [代运营托管]百度(baidu)基木鱼/头条代运营,主要承接养生、心脑、肺结节、三高、腰椎、关节、痔疮、耳鸣等
  • 2025-06-20 02:36:52

     

    有量中医养生社区粉
  • 2025-06-20 02:30:47

     

    寻甲方长期稳定业务,提供暑假工、日结工厂等人力资源,日200-500/天,寻实力甲方业务合作.
  • 2025-06-20 02:24:42

     

    接单!护腰护膝 日供3万粉 ​纯中医养生,食疗,图书养生,量大质优
  • 2025-06-20 02:18:37

     

    提供口才课培训、播音主持 推广获客渠道,寻教育机构甲方合作,抖音主流媒体资源。
  • 2025-06-20 02:12:32

     

    苹果/安卓/小程序/应用市场用户增长,appstore、android、小程序等应用商店ASO积分墙关键词排名优化
  • 2025-06-20 02:06:27

     

    提供教辅 素养 英语推广获客渠道,寻甲方
  • 2025-06-20 02:00:23

     

    平安住院医疗保险报销比例是多少,流程有哪些
  • 2025-06-20 01:54:17

     

    360借条逾期打通讯录电话吗会怎么样?
  • 2025-06-20 01:48:12

     

    [代运营托管]百度(baidu)国学顶点收量
  • 2025-06-20 01:42:08

     

    [代运营托管]中医养生各里面量,注册率完播率高,信用卡逾期搜索量(早6点开接的或可接到晚10点)
  • 2025-06-20 01:36:03

     

    [开户代运营]抖音器械粉,栏目来对接,投产3.8
  • 2025-06-20 01:29:58

     

    [开户代运营] 全媒体 全行业 代运营 代播 视频拍摄 服务
  • 2025-06-20 01:23:53