玩 AI 视频,角色老是换脸?我花了3个月才搞明白问题出在哪儿(上篇)

分类佳文共赏
作者ponyo
来源跳转
发表时间

内容

如何让你的视频——特别是长视频中,脸部保持绝对一致?

你肯定觉得已经 Seedance 2.0 如此万能,根本就不用学任何技巧。

然并卵。

我们都知道一个模型首发的时候,算力是最充沛的。然而慢慢地,随着使用的人越来越多,模型的能力是会下降的。

当你真实使用的时候,你会发现,如果你想做一个具有连贯性的长视频,却不掌握以下技巧而 盲目抽卡 的话,你迎来的将是 巨额耗费的积分 。

你以为 上传个参考图 就够了?兄弟,那只解决了 1/6 的问题。

先说个扎心的事实 上周有个哥们儿找我,说他的武侠短剧翻车了。

“我按你说的,上传了男主的定妆照, @引用也写了,为什么第一集的少侠是吴彦祖,第二集变成了金城武,第三集直接成了隔壁老王?”

我看了他的 Prompt,一秒钟就看出问题了:

📷 这就是典型的“只给了参考图,但没告诉 AI 这个人是怎么动的”。

他只告诉 AI“这个人长什么样”,但没告诉 AI“这个人怎么动”。

说实话,我刚开始做短剧的时候,也是这么踩坑的。

那会儿我做了个现代都市剧,女主第一集是职场精英,第二集变成了邻家少女,第三集直接成了大妈。我当时懵了,明明用的同一张参考图啊?

真实翻车案例:只用参考图,结果第一集和第二集完全是两个人

后来我测了 200 多个镜头,才搞明白:

角色一致性 ≠ 参考图一致性。

参考图只解决了“长相”这一个维度,但 AI 生成视频,需要的是 6 个维度的完整信息。

这就是我今天要聊的—— 六棱镜法 。

如何克服“i 人”的害羞,让我第一次介绍下自己

大家好,我是 Ponyo,来自北京。

我的职业路径有点特别。本科毕业于中央音乐学院,毕业后在华谊音乐工作,出过两张唱片。后来转行进入 IP 行业,在一家全球顶级动画 IP 公司担任市场负责人,在外企工作了 15 年。那是一个年收入近百亿、在 180 多个国家播出的超级 IP,我参加过不少全球电影节和 IP 展,也对这些领域进行了深度学习过迪士尼、华纳兄弟等制片厂的项目运作流程。

现在主要做为顶尖企业赋能的AI 全流程数字化转型工作,担任过中国五百强(电商、金融等)多个行业的数字经济转型顾问。这些年也有幸近距离了解了不少全球优秀作品,加上音乐和 IP 行业的经历,让我对视觉叙事和节奏把控有了一些自己的理解。

2024 年开始深入研究 AI 视频生成,协助企业测试 Sora、可灵、Runway 等十几个工具,帮他们写提示词、搭建工作流,在短剧、广告、电商等场景落地了上百个实战案例。

AIGC 行业卧虎藏龙,大咖无数。自己也还是个小学生,但一路见证企业在艰难探索 AI 这条路上踩过的坑,确实不少。

今天就把我这 3 个月协助企业总结出来的“六棱镜法”,掰开了揉碎了跟你说

一致性的真相:6 个维度缺一不可

很多人以为角色一致性 = 上传参考图。 错了。

角色一致性 = C(参考图)+ S(运镜)+ P(物理反馈)+ T(时间线)+ E(剪辑节奏)+ A(光影氛围)

这就是 六棱镜法 的 6D 转译协议。

六棱镜法的核心公式:6 个维度缺一不可

我给你举个例子。

AI 能理解的信息对比:

旧思维只给 1 个维度,六棱镜思维给足 6 个维度

六棱镜思维:6 维锁定

看看正确的写法:

结果 :

不仅脸一致,连动作节奏、服装飘动方式、光影落点都一致。

真实成功案例:

用六棱镜法,三集的女主角完全一致,从站立到行走到坐姿都是同一个人

为什么“自然语言流”比“分段列表”更重要?

这是我测了 100 多个镜头才发现的秘密。

Seedance 2.0 的底层是语言模型,不是程序。

一气呵成的自然语言流,比切成 9 个编号段落要好得多。

我自己的经验是:

  • 列表式:生成 10 次,能用的 2-3 次
  • 自然语言流:生成 10 次,能用的 7-8 次

差距就是这么大。

六棱镜法的完整工作流

我现在做短剧,都是按这 4 步走:

第一步:建立角色锁定库

在开始写提示词之前,先把角色的“基因库”建好。

角色锁定库包含 :

  • 定妆照(正面/侧面/45 度)
  • 常用表情(微笑/严肃/愤怒/悲伤)
  • 常用动作(站立/行走/打斗/对话)
  • 常用服装(日常/战斗/正式)

重点 :所有图必须同一个模型、同一组参数生成。

我一般用 Midjourney 先生成一套角色图,然后在整部短剧中都用这套图做参考。

实际案例:完整的角色资产库

角色三视图:正面、45 度、侧面 - 确保任何角度都能保持一致

常用表情库:

微笑、严肃、惊讶、沉思 - 精准控制情绪表达

常用动作库:

站立、行走、转身、坐姿 - 保持动作气质一致

案例 2:奢侈品香水广告女主角

这是我为一个 Glass 香水广告建立的完整资产库

角色三视图:

正面、45 度、侧面 - 白色蕾丝服装+黑色长发+优雅气质

常用表情库:

愉悦微笑、专注凝视、惊喜、沉思 - 适配奢侈品广告的情绪表达

常用动作库:

优雅站立、行走、坐姿、产品互动 - 保持高端品牌的动作气质

完整九宫格分镜:

从兰花特写到女主行走,再到产品特写和情绪表达,最后收尾 - 这是一个完整的 60 秒奢侈品广告故事线

重点 :商业广告和短剧的资产库建立逻辑完全一样,区别只在于:

  • 商业广告更注重“产品互动动作”(持香水瓶、闻香、展示等)
  • 商业广告的光影参数更严格(必须匹配品牌调性)
  • 商业广告需要提前规划“九宫格分镜”,确保每个镜头都能无缝衔接

有了这套完整的资产库,我在写提示词时就可以精确引用:@图片 1(三视图-正面)、@图片 2(表情-微笑)、@图片 3(动作-行走)。

第二步:写 6D 工作笔记

这一步是结构化思考,帮你理清 6 个维度。

我的 6D 工作笔记模板长这样:

C - Context 场景与角色

  • 角色: @角色图 1,25 岁白衣少侠,剑眉星目,左眼角疤痕
  • 场景:悬崖边,黄昏,远处山峦
  • 服装:白色长袍,黑色腰带,长剑

S - Shot 镜头运动

  • 起始:悬崖上方俯视
  • 运动:下降→水平→右侧弧形环绕
  • 结束:右侧脸特写

P - Physics 物理反馈

  • 长袍向左翻飞
  • 马尾辫水平飘动
  • 剑身反射金光

T - Time 时间线

  • 总时长:10 秒
  • 0-5 秒:镜头下降
  • 5-10 秒:弧形环绕

E - Editing 剪辑节奏

  • 节奏:均匀舒缓
  • 速度:无变化
  • 定格:右侧脸特写

A - Atmosphere 氛围

  • 光线:黄昏金光,45 度侧光
  • 色调:暖金色
  • 情绪:坚定、深邃

第三步:翻译成自然语言流

把 6D 笔记“翻译”成一段连贯的视觉故事(参考上方六棱镜正面案例图)。

这一步最关键,也最考验功力。

我的经验是:

  • 按照“镜头运动→角色状态→物理反馈→光影氛围”的顺序写
  • 用“然后”“接着”“最后”等连接词串联
  • 每句话都要有画面感

第四步:检查清单

生成之前,过一遍这个清单:

全部打勾了,再去生成。

记住 :每个镜头至少要有 3 个物理反馈描述。

情感/对话戏必备

因为篇幅字数的限制,上篇就写到这里,明天我们再发下篇。

下篇预告

但如果你想做到 100% 的角色一致性 ,还有三个“隐形杀手”你必须知道:

  • 剪辑节奏 ——同一个人,动作速度不一样,观众会觉得是两个人
  • 光影参数 ——我踩过最大的坑,同样的脸在不同光线下像完全不同的人
  • 三个常见错误 ——90% 的人都在犯,以及怎么避免

下篇我会把这些“进阶心法”全部拆解给你,并附上我总结的 角色一致性终极公式 。

评论

(0)
未配置登录方式
暂无评论