用 MiniMax M3,给无声视频,补上声音
- 公众号:赛博禅心
- 发布时间:2026-06-02T23:18:01+08:00
- 微信链接:https://mp.weixin.qq.com/s/N4qVGfrTwMwyXNyIvtA8eA
- RSS ID:3934419561-2247517629_1
- Feed ID:MP_WXS_3934419561
- Glance 当前首页可见:是
MiniMax
先看一段视频
已关注
关注
重播
分享
赞
随便看看 -->
关闭
观看更多
更多
退出全屏
[javascript:;](javascript:;)
切换到竖屏全屏
退出全屏
赛博禅心
已关注
[javascript:;](javascript:;)
分享视频
,时长
00:13
0
/
0
00:00
/
00:13
切换到横屏模式
继续播放
进度条,百分之0
[播放](javascript:;)
00:00
/
00:13
00:13
全屏
倍速播放中
[0.5倍](javascript:;)
[0.75倍](javascript:;)
[1.0倍](javascript:;)
[1.5倍](javascript:;)
[2.0倍](javascript:;)
[超清](javascript:;)
[流畅](javascript:;)
您的浏览器不支持 video 标签
继续观看
用 MiniMax M3,给无声视频,补上声音
观看更多
转载
,
用 MiniMax M3,给无声视频,补上声音
赛博禅心
已关注
分享
点赞
在看
已同步到看一看
[写下你的评论](javascript:;)
[视频详情](javascript:;)
🎬 点击播放:14 秒,建议看完再往下翻
这段视频
没有声音,来猜猜这是啥曲子?
...
...
...
揭晓答案
已关注
关注
重播
分享
赞
随便看看 -->
关闭
观看更多
更多
退出全屏
[javascript:;](javascript:;)
切换到竖屏全屏
退出全屏
赛博禅心
已关注
[javascript:;](javascript:;)
分享视频
,时长
00:14
0
/
0
00:00
/
00:14
切换到横屏模式
继续播放
进度条,百分之0
[播放](javascript:;)
00:00
/
00:14
00:14
全屏
倍速播放中
[0.5倍](javascript:;)
[0.75倍](javascript:;)
[1.0倍](javascript:;)
[1.5倍](javascript:;)
[2.0倍](javascript:;)
[超清](javascript:;)
[流畅](javascript:;)
您的浏览器不支持 video 标签
继续观看
用 MiniMax M3,给无声视频,补上声音
观看更多
转载
,
用 MiniMax M3,给无声视频,补上声音
赛博禅心
已关注
分享
点赞
在看
已同步到看一看
[写下你的评论](javascript:;)
[视频详情](javascript:;)
这是《小星星》,你猜对了吗?
我把这段无声视频丢给了 MiniMax M3,它给出了正确的判定:《小星星》
M3 的分析结果
然后,我追加了一个要求:
把这段的视频,做成一个有声的、能跟着弹的网页游戏
几分钟后,出来了这个东西:
跟弹《小星星》
视频嵌在上面当教学画面,键盘 A 到 H 对应 do re mi fa sol la,按对了电脑发出钢琴声,视频自动跳到下一个音的位置,等你按下一个键,错了则会提醒
已关注
关注
重播
分享
赞
随便看看 -->
关闭
观看更多
更多
退出全屏
[javascript:;](javascript:;)
切换到竖屏全屏
退出全屏
赛博禅心
已关注
[javascript:;](javascript:;)
分享视频
,时长
00:10
0
/
0
00:00
/
00:10
切换到横屏模式
继续播放
进度条,百分之0
[播放](javascript:;)
00:00
/
00:10
00:10
全屏
倍速播放中
[0.5倍](javascript:;)
[0.75倍](javascript:;)
[1.0倍](javascript:;)
[1.5倍](javascript:;)
[2.0倍](javascript:;)
[超清](javascript:;)
[流畅](javascript:;)
您的浏览器不支持 video 标签
继续观看
用 MiniMax M3,给无声视频,补上声音
观看更多
原创
,
用 MiniMax M3,给无声视频,补上声音
赛博禅心
已关注
分享
点赞
在看
已同步到看一看
[写下你的评论](javascript:;)
[视频详情](javascript:;)
在电脑上实际跟弹
整个过程就是:
它拿到了一段的手指视频,给到了一个能发声、能互动、能教我弹琴的游戏
背后发生了什么
MiniMax M3 主打三大能力:
原生多模态
、
百万级长上下文
、
前沿 Coding
,而刚才的这个小星星任务,其实也正把这三个展示了出来
多模态
。模型会逐帧分析手指和琴键的相对位置,标注每一帧按下的是哪个白键,然后翻译成位置信号,通过这种方法,在没有音频信号的前提下,推断出旋律
🧠 M3 思考过程
用 videos_understand 工具逐帧分析视频
音序列:C C G G A A G | F F E E D D C
判定:《小星星》前两句
长上下文
。任务过程中,模型需要记录和分析每次手指移动的情况,并且不断推断音符的时间戳,然后对视频进行切片处理和打标,并在最后进行完整的交付
Coding
。这个任务虽然看上去很小,但实际有着多种 tool call,还要通过如 Web Audio API 对工具进行实时音色合成、视频播放控制,按键判定,UI 动效。
这里的所有声音,是 AI 控制震动频率合成的
🧠 M3 思考过程
用 Web Audio API 生成正弦波 + 三角波合成音色
A=C(do) S=D(re) D=E(mi) F=F(fa) G=G(sol) H=A(la)
按对推进,按错提示,做完打包
M3 在 MiniMax Code 里的工作过程,右边是产出的文件
讲道理,M3 能处理完这些,是超过我的预期的
MiniMax M3
昨天,6月1日,我在给酒吧开业的时候,看到了 MiniMax 发布了 M3,是国内第一个同时做到百万级上下文、前沿 Coding 和原生多模态开源模型,详细的信息如下:
官方 benchmark 对比
上下文
新架构
MSA
,把每个 token 的计算量压到上代模型的
1/20
。一百万 token 的上下文窗口,预填充快 9 倍,解码快 15 倍
直观理解:能一次读完一本 300 页的书,或者像小星星这样,把整段视频的逐帧分析 + 完整代码 + 调试日志全部放在一个对话里
Coding
SWE-Bench Pro
59.0%,超 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7
评测之外,M3 独立复现一篇 ICLR 2025 最佳论文,12 小时,18 次提交,23 张图表。另一个是优化 CUDA kernel,连续 24 小时,
147
次提交,性能提升 9.4 倍。中间卡壳了还知道换条路试
多模态
从训练第一步就混合了文字、图片、视频。能看图、看视频、操作电脑桌面。小星星那个「看无声视频识别旋律」就是这个能力的直接体现
MiniMax Code
桌面 Agent 产品,类似 Claude Code。支持多阶段并发执行,带 Computer Use。M3 在里面可以调用 MiniMax 全家的 API:文字、语音、视频分析,一个工具箱全装下
定价
Token Plan 三档:Plus
49
元/月 6 亿 token,Max
119
元/月 18 亿 token,Ultra
469
元/月 55 亿 token
M3 发布后,Token Plan 从时长制切换到了 token 计量制,部分老用户觉得权益缩水,反馈集中。MiniMax 当天发了补偿方案:3.22 前的老用户继续无周限额,其他老用户周限额加赠 50%,前 7 天额度翻倍,退款通道搭建中
官方权益调整说明
M3 API 上线 5 折,限时 7 天。技术报告和开源权重 10 天内发布
以及:这个模型还是不错的,可以试试