快速结论

ClipCombo 最初要解决的是一个很朴素的问题:直播、播客、访谈、课程和长录屏里有太多内容,创作者需要快速找到值得发布的片段,去掉停顿,补上字幕,然后导出成短视频。

这个方向仍然是 ClipCombo 的根。我们不会把简单的切片工作流做复杂。Clip mode 仍然应该小而美:导入一个长视频,识别字幕,检测停顿,找出高光,生成多个可用片段。

但我们也发现,只做切片不够。创作者拿到一个好片段之后,很快会想加一个表情包、一个数据卡片、一个标题动画、一个 B-roll、一个分屏画面,或者把多个视频源组合在一起。如果这时直接跳到 After Effects 级别的复杂度,很多人会被时间线、属性树、预合成、关键帧和渲染设置劝退。

所以 ClipCombo 的下一步不是把 clip mode 变成臃肿的专业软件,而是引入一个清楚的分层:简单切片继续简单,需要进阶时再创建 composition。composition 承载多轨道、预合成、HTML/MG 图层、关键帧和 Agent 生成的动画。AI 的角色不是替代创意,而是把那些耗时但可描述的剪辑与动效任务加速掉。

初心:先把重文本长视频切快

长视频切片有一个天然适合 AI 的入口:文本。

直播、podcast、访谈、讲座和会议录屏通常是重文本内容。ASR 把语音转成字幕后,LLM 就能理解话题、转折、情绪、笑点、观点密度和可传播的句子。再配合 VAD 去除停顿、字幕分段、词频复查和高光片段建议,用户不必从一小时素材里一点点拖播放头。

这就是 ClipCombo 的第一阶段产品直觉:

痛点ClipCombo 的第一层能力
不知道长视频哪里值得剪ASR transcript、LLM 高光建议、可回到时间线的片段定位
剪掉停顿很烦VAD 自动切片与一键去停顿
字幕耗时ASR 上字幕、字幕拆分、词频复查
竖屏发布要重复调整9:16 构图与批量导出
长素材太多多 clip 组织、批量导出、后续视觉关键帧索引

CapCut 的 auto captions、filler word removal 和易上手时间线证明了一点:大量创作者并不想每天都打开复杂后期工程,他们想要“把一条 15 分钟视频很快变成能发布的几个短视频”。OpusClip 也验证了另一个方向:云端 AI 可以从长视频里自动找候选 clip,并用多模态线索理解画面、声音和情绪。

ClipCombo 从这些产品里学到的是:第一步必须快。切片、去停顿、上字幕、找 highlight,不能让用户先学习一套专业后期系统。

为什么只做切片会碰到天花板

问题出现在“片段已经找到了”之后。

一个 45 秒的 podcast 精华片段,如果只是加字幕,它很快能发布。但如果用户想进一步表达观点,往往需要额外的视觉语言:

想表达的内容需要的编辑能力
这句话很关键文字强调、缩放、描边、弹入动画
这里有一个梗表情包、图片图层、音效、短暂叠加
这里在讲数据数据卡片、数字滚动、图表动画
这里要对比两个人分屏、多视频源、裁切和同步
这里要解释流程箭头、框选、UI callout、MG 动画

传统软件会把这些能力放在复杂的时间线和属性系统里。After Effects 的预合成、嵌套 composition 和关键帧插值非常强大,但代价也很明显:一秒钟精致动画,现实中可能要花一小时甚至更久。

剪映和 CapCut 代表的是另一种比例:很多创作者可以花 10 分钟处理一个 15 分钟视频,因为模板、字幕、基础特效和移动端工作流把大多数步骤压扁了。

ClipCombo 想填的是这两个世界中间的空隙:

  1. 不让普通创作者一上来面对 After Effects 的完整复杂度。
  2. 不把高质量 MG 动画降级成几个固定模板。
  3. 让 AI 负责生成、调整和解释复杂动画层,人类负责判断创意和节奏。
  4. 让生成出来的结果仍然是可编辑 layer,而不是一个黑盒视频片段。

市场给出的两个重要信号

过去几年有两个信号改变了我们对视频编辑器的判断。

第一个信号来自 Remotion。Remotion 用 React 描述视频 composition,并通过 widthheightfpsdurationInFramesinputProps 等配置进行程序化渲染。它证明了一件事:视频不一定只能在传统 NLE 的 UI 里被创作,也可以被代码、数据和组件生成。

Remotion 的启发不是“ClipCombo 应该直接迁移成 Remotion”。原因很现实:Remotion 更适合可信开发者工程和程序化视频模板,它的 client-side web renderer 官方仍标记为 experimental,而且商业集成还需要认真看 license。ClipCombo 的 composition document、素材库、时间线、操作历史和本地优先数据模型必须继续由自己掌握。

第二个信号来自 HyperFrames。HyperFrames 把 HTML 作为视频 authoring surface,用 seek clock 逐帧推进时间,再捕获每一帧像素。它特别适合 Agent:LLM 很擅长写 HTML/CSS/JS,如果能把这些网页式动画变成逐帧可复现的视频,MG 创作门槛会明显降低。

HyperFrames 给 ClipCombo 的启发更直接:HTML/MG 不应该只是“导出前烘焙成视频”的旁路能力,而应该成为一个 first-class layer。用户或 Agent 可以生成 lower third、标题卡、数据卡片、UI callout、CSS/GSAP 动画;ClipCombo 则负责 sandbox、依赖 allowlist、逐帧 seek、浏览器捕获、最终合成和导出。

竞品和框架的取舍

下面这张表不是说谁更好,而是说明 ClipCombo 从不同产品和框架里学到了什么,以及我们不会照搬什么。

产品或框架公开口径里的强项ClipCombo 学到的东西ClipCombo 的取舍
CapCut / 剪映auto captions、去 filler words、模板化剪辑、低学习成本粗剪和字幕必须极快,普通用户不应该先理解复杂工程保持 clip mode 小而美,不把所有高级面板塞进第一屏
OpusClip从长视频自动生成短片,使用视觉、音频、情绪等多模态线索AI clipping 的用户价值成立,VLM 可以补齐“画面发生了什么”不把选择权完全交给云端黑盒,保留本地优先和人工复查
After Effects预合成、嵌套 composition、keyframe、layer/property 心智复杂后期应该拆成 composition、layer、property、keyframe渐进暴露 AE-like 能力,避免把初学者直接推入完整复杂度
RemotionReact 组件化视频、数据驱动渲染、服务端或本地程序化输出frame-driven thinking 很适合可重复视频生成不把 Remotion 作为 canonical renderer,避免双重工程世界和 license 风险
HyperFramesHTML-first、agent-first、seek clock、逐帧浏览器捕获HTML 是 LLM 生成 MG 的高杠杆 authoring layer采用 HTML browser capture 的架构方向,但 ClipCombo 继续拥有 composition 数据和最终合成

ClipCombo 的结论是:第三方框架可以启发 renderer adapter、动画 runtime 或模板系统,但不能拥有最终的 composition truth。

ClipCombo 的产品理念:clip 简单,composition 进阶

产品层面,我们把 ClipCombo 拆成两个互相连通但心智不同的空间。

Clip mode 负责“从长素材里找出能用的片段”。它围绕单一 source 工作,主要能力是 ASR、VAD、字幕、视觉关键帧、词频复查、LLM 切片建议、构图和导出。

Composition mode 负责“把片段变成完整作品”。它允许多个素材源、多层图层、嵌套 composition、text layer、shape layer、HTML/MG layer、transform、opacity、blend mode、keyframe 和未来的 effect stack。

最重要的是,用户不需要一开始就进入 composition。当一个 clip 已经够好,用户应该可以直接导出。当用户想继续加动画、叠素材、做分屏、做包装,再创建 composition。这个动作应该像“打开进阶模式”,而不是换一个完全陌生的软件。

预合成是这里的关键抽象。After Effects 里,precompose 可以把多层内容收进新的 composition,再作为父 composition 的一个 layer 使用。ClipCombo 采用类似心智:用户可以把复杂片段打包成一个 composition layer,外层只处理整体 timing、position、scale、rotation、opacity,内层继续保留可编辑细节。

这让复杂度可以被折叠,也让 AI 更容易工作。Agent 可以生成一个 title animation composition,用户只需要把它放到对应时间和位置。如果需要微调,再进入预合成内部修改文案、颜色、节奏或关键帧。

技术核心:一帧只有一个真相

多轨和 MG 最大的坑不是“怎么显示出来”,而是“preview 和 export 是否一致”。

浏览器 DOM 很适合实时交互。拖动图层、播放视频、scrub 时间线、缩放画布,DOM/native media 都很快。但视频导出需要确定性:第 123 帧应该是什么,不能依赖 wall-clock、requestAnimationFrame 或某个 CSS transition 当前刚好跑到哪里。

所以 ClipCombo 的架构原则是:

层级职责
Canonical composition document保存 layer、timing、z-order、source mapping、property、keyframe、mask、effect、HTML/MG metadata
Property / keyframe evaluator在指定 composition time 计算 transform、opacity、audio gain、HTML props 等属性
Composition render plan把当前帧需要显示的 layer stack 解析成统一渲染计划
Realtime DOM preview服务交互速度,是 proxy backend,不是所有功能的像素真相
Exact-frame preview用和导出同类的 renderer 检查关键帧像素
Deterministic exportCanvas 2D / WebCodecs baseline,逐帧求值、合成、编码

这也是 TODO 里反复强调的 single-source-of-truth。ClipCombo 可以有多个 renderer adapter,但不能有多个语义真相。无论是人类拖拽、快捷键、Inspector 输入,还是 Agent toolcall,都应该通过同一套 composition operation 和 history layer 写入数据。

HTML/MG 为什么值得成为一等图层

我自己每天重度使用 Codex 和 Claude Code,也有 5 年以上 After Effects 与 Adobe 全家桶经验。这个组合让我越来越确定一件事:LLM 现在最擅长生成的复杂视觉载体,不是传统 NLE 的私有模板格式,而是 HTML/CSS/JS。

写一个标题卡、一个 quote card、一个动态数据面板、一个 UI callout,HTML 层非常自然。加上 GSAP 这样的 timeline/easing runtime,Agent 可以把“这里做一个数字上涨动画,最后弹出重点词”变成可运行的代码。

但这也带来风险。ClipCombo 的 HTML/MG 不能变成任意网页:

  1. 不能 runtime npm install
  2. 不能加载 CDN script。
  3. 不能访问网络、cookies、secrets 或宿主 DOM。
  4. 不能让未知 import 悄悄进入导出流程。
  5. 不能用 wall-clock ticker 驱动最终导出。

因此我们的策略是:HTML/MG layer 运行在 sandbox 中,依赖来自已审核、已 pin、app-bundled 的 allowlist。GSAP core 会作为第一批 runtime,但 timeline 必须被 ClipCombo 的 frame time 驱动,比如暂停后按 timeSeconds seek,而不是自由播放。

更进一步,HTML/MG 的外层 transform 也不属于生成代码。生成代码只负责 layer local surface 内的内容。position、scale、rotation、opacity、blend mode、timing、z-order 仍然由 ClipCombo 的通用 layer system 控制。这样 canvas 选中、timeline 修剪、预合成、导出、undo/redo 和 Agent diff 都能对齐。

AI 在中间层的真正价值

AI 不是把剪辑变成一句 prompt 就结束。真正有价值的地方,是它可以在不同复杂度的阶段加速不同类型的劳动。

阶段人类最烦的事AI 应该做的事
粗剪从长视频里找亮点读 ASR、VLM、关键词和画面描述,提出 clip 候选
清理去停顿、补字幕、修重复错误应用 VAD、字幕分段、词频复查、ASR 修正建议
精剪调整节奏、组织素材根据用户意图移动 layer、拆分片段、建立 composition
动效做 MG、关键帧、标题动画生成 HTML/MG layer、shape/text animation、可编辑 props
导出等待、失败、重跑提供确定性 export、进度、重试、恢复和诊断

这也是 ClipCombo 不想只做“AI 自动出片”的原因。自动出片很有用,但它不是全部。很多时候,用户真正想要的是:我知道这段话要表达什么,你帮我把那段复杂但耗时的动效做出来;我再判断它是否有品味,是否符合节奏,是否真的表达了我的想法。

这更接近“pre-Adobe”的体验:仍然保留剪辑与后期的精度,但复杂操作由 Agent 帮你进入和退出。

下一步最难的不是功能,而是信任

多轨、HTML/MG、Agent 编辑都很兴奋,但 ClipCombo 现在最谨慎的地方是 preview/export parity。

如果用户在 preview 里看到的字幕换行、HTML 动画、mask、blend mode、nested composition 和导出结果不一致,产品信任会立刻下降。越是 AI 生成的内容,越需要可审查和可复现。

所以短期优先级不是堆更多炫酷 layer,而是把几件事做稳:

  1. exact-frame preview 成为 parity-sensitive feature 的 review surface。
  2. deterministic export 继续使用共享 render graph 和固定 frame timestamp。
  3. HTML/MG 在没有 browser capture runtime 时明确显示 fallback 或 unsupported export state。
  4. Agent 生成的内容保持可检查、可撤销、可编辑。
  5. clip mode 不被多轨复杂度污染。

ClipCombo 会继续从一个很实际的起点出发:先让长视频切片省时省力,再在用户需要更高表达力时,打开 composition。我们希望最终的体验不是“AI 替你做完一个你无法理解的视频”,而是“AI 把耗时的技术劳动折叠起来,让你重新把注意力放回创意剪辑本身”。