2026 年 6 月,OpenMontage 在 GitHub 上突然火了,Star 很快破万。很多人把它和 Runway、Pika、可灵放在一起比——其实比错了对象。
打个比方:
- Runway / Pika 像「自动售货机」:投币(写 Prompt),吐出一小段 5–10 秒的视频。
- OpenMontage 像「一整条视频制片流水线」:你当甲方,Cursor 或 Claude Code 当制片主任,带着一堆工具去调研、写稿、找素材、配音、加字幕、剪辑、导出成片。
它不是网页 App,也不是剪映插件。你要把项目下载到电脑,在 AI 编程助手里用说话的方式下需求,剩下的按固定步骤走。
如果你想知道:它到底值不值得用? 下面用尽量白话的方式说清楚。
1. 做视频,难的不是「画一段画面」
很多人以为做短视频 = 缺一段 AI 画面。实际更像做一道宴客大餐,难点在流程:
| 环节 | 常见痛点 | 生活类比 |
|---|---|---|
| 写稿 | AI 容易瞎编,没查证 | 没查食谱就开火 |
| 找素材 | 旁白、画面、音乐、字幕各做各的 | 菜、碗、筷子不在一张桌上 |
| 质检 | 音画不同步、字幕错位 | 菜上了才发现没放盐 |
| 算账 | 调 API 一次一块,做长了很贵 | 每切一刀都要另付钱 |
OpenMontage 想解决的是整条流水线,不是「再给你一个生成按钮」。它既能做「图片动起来」的解说片,也能从 Archive.org、NASA 等公开库找真视频素材剪成纪录片——不是把两三张 PPT 图晃一晃就叫视频。
2. OpenMontage 到底是什么?
2.1 一句话
OpenMontage = 给你的 AI 编程助手配一套「视频制片 SOP + 工具箱」。
你在 Cursor 里说「帮我做一条 60 秒科普」,它不会只回一句文案,而是按步骤:查资料 → 写脚本 → 找/生成画面 → 配音 → 配乐 → 加字幕 → 渲染导出。
项目开源,许可证是 AGPL-3.0。自己用没问题;若你要把它做成对外收费的在线服务,可能需要公开修改后的代码——商业化前建议问法务,别踩坑。
2.2 四个数字,先有个印象
| 是什么 | 多少 | 你可以理解成 |
|---|---|---|
| 流水线(Pipeline) | 12 条 | 12 种「菜谱」:科普、纪录片、口播、产品 Demo…… |
| 工具(Tools) | 52 个 | 厨房里的刀、锅、烤箱——调 FFmpeg、TTS、生图 API 等 |
| 技能文档(Skills) | 400+ 份 | 给 AI 看的「岗位手册」:这一步该怎么干 |
| 供应商评分 | 7 个维度 | 自动帮你在「便宜 / 快 / 质量好」之间做选择 |
2.3 最特别的一点:导演是你用的 AI,不是网站
传统软件会写死一个程序,按顺序调 API。OpenMontage 反过来:Cursor / Claude Code 就是导演。
可以想成这样的流程:
你提需求 → AI 读「菜谱」(Pipeline)→ 按步骤调用工具
→ 自己检查一遍(画面、声音、字幕)→ 存档 → 问你「行不行?」→ 导出视频
- Python 代码 = 干活的「手」(剪辑、合成、调接口)
- Markdown 文档 = 教 AI 怎么干的「脑」
好处是:每一步理论上都有记录,团队复盘「为什么用了 A 模型而不是 B」查得到——不像黑盒一键出片,做完就忘。
2.4 12 条流水线,挑你需要的「菜谱」
| 流水线 | 做什么 | 适合谁 |
|---|---|---|
| 动画解说 | AI 画面 + 旁白 | 科普博主、教程 |
| 动效短片 | 文字动画、快闪 | 社媒运营 |
| 纪录片蒙太奇 | 用真实公开素材剪辑 | 知识区、情绪向内容 |
| 电影感预告 | 氛围、预告片 | 品牌概念片 |
| 口播视频 | 真人说话为主 | Vlog、演讲 |
| 屏幕录制 | 软件演示精修 | 产品 Demo |
| 播客切片 | 长音频变短视频 | 播客主 |
| 多语言配音 | 翻译 + 配音 | 出海内容 |
| 批量切片 | 一条长片拆很多条 | 矩阵号运营 |
| 混合模式 | 实拍 + AI 补画面 | 有现成素材的人 |
| 虚拟主播 | AI 形象出镜 | 培训、公告 |
| 卡通角色 | SVG 小动画 | 故事类短片 |
不管哪条,大步骤都差不多:调研 → 方案 → 脚本 → 分镜 → 素材 → 剪辑 → 合成。官方建议:先选流水线,再按文档走,别让 AI 自由发挥乱改流程。
2.5 几个词,用大白话解释
- 合成引擎(Remotion / HyperFrames)
- 最后「把素材拼成视频」的两种厨房。Remotion 偏数据图表、解说类;HyperFrames 偏花哨字效、卡通。选型后一般不再换。
- 供应商菜单
- 你配置了哪些 API Key、本机有什么能力,AI 就只能用这些——像打开冰箱看今天能做什么菜。
- 交付检查
- 防止 AI 交差交出一版「PPT 幻灯片录像」;明显不合格的计划会在渲染前被拦住。
- 参考视频
- 丢一条 YouTube Short 链接,AI 学它的节奏和结构,再给你几个改版方案和报价——不是照抄。
3. 怎么开始?(Mac 用户)
3.1 先准备这些
| 需要 | 干什么用 |
|---|---|
| Python 3.10+ | 跑各种工具脚本 |
| FFmpeg | 视频剪辑、转码(行业标配) |
| Node.js 18+ | 跑 Remotion 合成 |
| Cursor 或 Claude Code | 当「制片主任」 |
macOS 安装示例:brew install ffmpeg node python@3.12
3.2 三步上手
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
make setup
然后在 Cursor 里打开文件夹,直接说:
帮我做一条 45 秒的动画科普:天空为什么是蓝色的
想要真实镜头、不要 AI 瞎画,可以这样说:
做一条 75 秒的纪录片风格短片:雨中的城市生活。
只要真实素材,不要旁白,情绪偏安静,加背景音乐。
3.3 要不要配 API Key?
不配也能做,但效果会「朴素」一些——像用家里现有食材做饭。
配了 Key 则像「加了外卖」:画面更炫、声音更好听,但要花钱。常用配置写在 .env 里,例如:
FAL_KEY=... # 生图、部分 AI 视频(官方示例常用)
OPENAI_API_KEY=... # 旁白、生图(单 Key 也能跑通一些片子)
PEXELS_API_KEY=... # 免费库存视频(申请开发者 Key 即可)
Mac 用户若没 NVIDIA 显卡,本地跑大视频模型不现实;M 系列 Mac 跑旁白 + 合成没问题,重活可以丢到 云端 Mac 或远程机器上渲染。
4. 不花钱能做出什么样?
官方说「零 API Key」也能出片,核心是这些免费能力:
| 能力 | 用什么 | 白话说明 |
|---|---|---|
| 旁白 | Piper TTS | 离线免费配音,音质够用 |
| 真实素材 | Archive.org 等 | 像去公共图书馆借老纪录片镜头 |
| 库存图/视频 | Pexels 等 | 免费素材站(要申请 Key) |
| 合成 | Remotion | 把画面、字幕、图表拼起来 |
| 后期 | FFmpeg | 最终导出 mp4 |
两条「几乎免费」的路线:
- 解说类:AI 念稿 + 配图 + 简单动效 → 像会做 PPT 动画的科普号。
- 纪录片类:从公开库搜真实视频镜头再剪 → 不调用 Kling、Veo 那些贵模型,这是它和多数「免费 AI 视频」最大的不同。
第二条要在需求里写清楚:「用真实素材、纪录片风格」。
5. 做一条片大概多少钱?
下面是官方示例里的参考价(会随 API 调价变化,只看量级):
| 风格 | 时长 | 大概花费 | 类比 |
|---|---|---|---|
| 吉卜力风(静图+动效) | ~30 秒 | 约 $0.15 | 一杯咖啡钱 |
| 皮克斯风(AI 运动镜头) | 60 秒 | 约 $1.33 | 一份快餐 |
| 产品广告(只用 OpenAI) | ~30 秒 | 约 $0.69 | 比外卖便宜 |
| 科幻预告(Veo 级) | ~30 秒 | $1–3+ | 看镜头复杂度 |
系统会在开干前估价格,你也可以设上限,比如「这次不超过 2 美元」——防止 AI 手滑狂调接口,像给信用卡设每日限额。
6. 深度测评:好在哪、坑在哪?
6.1 值得点赞的地方
① 做的是「整条片」,不是「一个片段」
Runway 给你一小段;OpenMontage 从选题到导出一条龙。做 90 秒科普、或一条长片剪 10 条短视频,省的是反复手工衔接的时间。
② 有存档,能续做
每个阶段会保存进度(像游戏存档)。做到一半电脑重启,不用从零再来;团队也能查「当时为什么选这个配音」。
③ 能用真素材,不全靠 AI 瞎画
纪录片流水线从公开库找镜头,适合历史、新闻、情绪向内容——观众更容易信。
④ 可以「抄结构、不抄内容」
丢一条你喜欢的 Short,AI 学它的 hook 和节奏,再给你几个改版方案 + 报价,比对着空白输入框发呆轻松。
⑤ 和 Cursor 是一伙的
已经在用 Cursor / Claude Code 写代码 的人,上手成本低——同一个窗口里既能写代码又能制片。
⑥ 会自检,少交「烂片」
导出前会查画面、音量、字幕;不是生成完就直接甩给你。
6.2 要接受的现实
① 门槛偏高——这是给「会折腾电脑」的人用的
要能接受:终端、报错、装依赖。不会用 Cursor 的运营同事,往往需要工程师在旁边「代驾」。
② 没有漂亮的一键界面
一切都在 IDE 对话和命令行里完成,不像剪映点开就能用。
③ 许可证对商业化不友好
AGPL 意味着:你若把它包成 SaaS 卖,可能要开源改动。内部用 OK,对外卖服务要慎重。
④ 同样的话,两次结果可能差很多
Agent 有随机性,不适合「每一帧都必须和分镜一模一样」的品牌大片。
⑤ 吃硬盘、吃时间
渲染和缓存很占空间;第一次跑通可能要几小时,要有耐心。
⑥ 项目还在快速迭代
文档和路径会变,生产环境建议锁版本,别追最新 main 分支 blindly。
6.3 和其他工具比,怎么选?
| OpenMontage | Runway / 可灵 | 剪映 AI | 找外包团队 | |
|---|---|---|---|---|
| 像什么 | 带 SOP 的工作室 | 自动售货机 | 微波炉预制菜 | 请厨师上门 |
| 谁适合 | 工程师、技术博主 | 创作者 | 所有人 | 有预算的品牌 |
| 零成本出片 | 可以(风格有限) | 基本不行 | 免费档有限 | 不行 |
| 上手 | 几小时~几天 | 几分钟 | 几分钟 | 几周 |
| 批量、多语言 | 内置流程 | 要反复付费 | 部分支持 | 按项目谈 |
7. 值不值得用?三张清单
✅ 建议试试
- 已有 Cursor / Claude Code,想批量做科普、产品解说。
- 小团队做 Demo 视频,有人愿意维护环境和
.env。 - 做知识类内容,接受免费配音,想要真实素材 + 字幕。
- 好奇「AI 制片到底长什么样」,愿意花一个下午折腾。
🤔 再等等,或只用一部分
- 要拍电影级 TVC,分镜必须人工签字——OpenMontage 最多当预演或找素材。
- 电脑硬盘 < 512GB,先清空间或上 远程 Mac。
- 想做成对外卖的在线工具——先搞懂 AGPL,别急着上线。
❌ 不太适合
- 完全不想碰终端、命令行。
- 一年就做两三条口播,加字幕就够。
- 期望「下载 App、点一下就出大片」——这不是它的设计目标。
8. 第一次做片,按这个顺序来
- 选简单菜谱:新手从「动画解说」或「纪录片蒙太奇」开始,别一上来就要电影预告片。
- 告诉 AI 别乱改流程:「请严格按官方 Pipeline 执行。」
- 先跑官方 Demo:README 里有
make demo,验证 FFmpeg 和合成环境是否正常。 - 设预算上限:对话里说「这次不超过 2 美元」。
- 别删中间文件:
projects/里的存档能断点续做。 - 人眼最后过一遍:前 3 秒够不够抓人、字幕有没有错别字、音乐会不会太吵——AI 自检通过 ≠ 好看。
在 Cursor 里常用:⌘ + L 打开 Agent;长流程请用 Agent 模式,别用普通聊天。
9. 结论:它像什么,值不值?
用三个比喻收尾:
| 工具 | 比喻 |
|---|---|
| Runway / Pika | 自动售货机:快,但只有一小段 |
| 剪映 | 微波炉:人人会用,模板化 |
| OpenMontage | 小工作室 + 制片手册 + 会干活的 AI 主任 |
值不值得?
- 会写代码、已在用 Cursor、要反复出结构化视频 → 值得,零 Key 就能试。
- 只想最快出一条、不想折腾 → 剪映或 Runway 更省心。
- 想打包成 SaaS 卖 → 先问律师,AGPL 和 Agent 不稳定性都是硬约束。
如果你属于第一类:建议本周花 2 小时,clone 项目、跑一条「天空为什么是蓝色」的 45 秒科普。跑通一次,比看十篇测评都管用。
常见问题
OpenMontage 是 App 还是插件?
都不是。它是一个下载到本地的开源项目,你在 Cursor 或 Claude Code 里用对话驱动它。没有单独的可视化 App,更像给 AI 助手配了一套「视频制片手册 + 工具箱」。
不花钱能做出视频吗?
可以。用免费离线配音、公开素材库里的真实镜头、以及开源合成工具,就能做解说片或纪录片风格短片。想要皮克斯级 AI 动画,才需要配置付费 API。
做一条 60 秒视频大概多少钱?
官方示例:简单动画科普约 1 元人民币量级;带 AI 运动镜头的短片约 10 元;具体看风格和 API。系统会在开干前估价格,你也可以设上限。
和 Runway、剪映有什么不一样?
Runway 像自动售货机——投 Prompt 得一小段。剪映像微波炉——模板化、人人会用。OpenMontage 像小工作室——从写稿到导出成片全流程,但你要会一点终端和 Cursor。
Mac 上跑有什么要求?
装 Python、FFmpeg、Node 即可跑通基础流程。M 系列 Mac 做旁白和合成没问题;heavy 渲染若硬盘不够,可以用云端 Mac 或外接硬盘。