AI热点 8小时前 51 浏览次数 0 评论

100镜实测Vidu Q2新视频模型,AI演员学会大师级演技了

人人都是产品经理

发布了 1153 文章

AI视频生成正在从“能动”走向“会演”。Vidu Q2新模型在100组镜头实测中展现出惊人的表演细腻度与镜头调度能力,标志着AI从“技术工具”向“创作主体”的跃迁。本文将从镜头表现、人物演技、场景调度三个维度,系统拆解Vidu Q2的能力边界与创作潜力。

这是我用 Vidu Q2 图生视频做出来的,我当时盯着这段视频中的表情和情绪变化,心里只冒出四个字:

太会演了

关键是这条视频只用了几秒出片,清晰度达到了1080P,动态几乎没有破绽,情绪表达真的有感染到我。而这,就是 Vidu Q2 这次更新最核心的内容:让视频中的角色具有人类神级演技。

Vidu Q1多图参考刚上线那会,我还整了个“童年记忆大同框”的视频,当时就觉得一致性和动态展现都牛🍺了。

100镜实测Vidu Q1多图参考,六个画风各异的人实现世纪同框

而这一次,Q2 的更新进一步大跨步到“微表情精细表演、复杂动态、精准运镜”三件事,我一口气测了8个场景,从喜怒哀乐的面部细节,到人物大幅度动作、再到电影感镜头调度,Vidu Q2图生视频基本都是一条过。

100镜系列再回归,我们一起来看效果!

文章中能放的视频有限,老样子,我还是把所有视频和提示语都打包到文档中,后台回复“Q2”就可以啦。

先来看看情绪展现,AI生成视频目前最难攻克的点就是演技。

我们能把一个视频看进去不出戏的前提就是,演员要会演,要有代入感, 才能让观众相信这个人物相信这个场景和故事。普通的喜怒哀乐我都觉得已经太简单了,这次我直接模拟电影中的细腻情绪表演片段,来看看效果。

首先看真人写实风格的电影镜头,我复刻泰坦尼克号中的经典场景,但是改成了Rose自己感受海风的片段,整个人物的表情和眼神都能非常直接的get到人物那种豁然开朗,心旷神怡的舒适之感。

然后再看两组镜头,一个是展现黑天鹅上场前的紧张和自我安慰的情绪,一个是展现男人失恋后在街头痛苦难过的情绪。这两个镜头每一个动作、每一处运镜和镜头语言、再到每一个表情都是恰到好处,没有之前AI表演会存在的油腻感觉,一瞬间我真的以为自己在看电影。。。

放到动画电影中,Vidu Q2的表现也是相当惊艳,先来看一个童年记忆狮子王辛巴。

这段主要是展现小辛巴从面对太阳充满希冀的感觉逐渐转变到对自己未来的担忧情绪,画面细节超级稳,即使是侧脸变换成正脸,一致性的完成度都非常高,而且情绪展现也非常到位。

同样是从开心到担忧沮丧的情绪,看到自己做出来疯狂动物城中朱迪的情绪和动作展现,我是真的有自信自己做一部电影了。

然后我又玩了两个经典场景的镜头,不得不说,ViduQ2目前对于角色的情绪展现真的强,做动漫一直是它的强项,但这也太强了吧。

我的提示语只给出了情绪变化的关键词,但是Q2自动给我补足了很多动作细节,比如老爷爷的悲伤抬头后头部微微晃动的细节,宗介泪水的出现的时间点和情绪变化的时间也是完美重合,太绝了。

演技测完,下一关是动作测试。

老规矩,我写了超多大幅度动作 prompt,测试模型是否能识别并执行好这些跨越+旋转+高速位移类的指令。

首先是真人风格的连续大动作测试,从向前跑到起跳到后空翻到转身落地最后到奔向镜头,这一连串的动作,ViudQ2完成度很高,甚至还有慢动作,每一个动作都有完成,最后结尾人物走向镜头的面部也没有崩坏。

换到动画风格中,这简直就是Vidu的舒适区,动作幅度大,画面特效合理,甚至还能配合运镜流畅的展现不同的景别,人物在变大变小的过程中始终都能保持稳定。

换成CG风格的打斗镜头,人物在挥舞光剑时和小机器人碰撞会产生火花,镜头会跟随人物不停的变化角度,让整个画面流畅度极高,战斗感十足。

那如果是多人对打的场景下,不仅人物大幅打斗拳拳到肉,还会配以合适的特效,甚至还会在合适的位置慢放镜头展示打斗的人物表情,放大碰撞的细节等等,画面张力爆棚。

而且即使是超大幅度动作人物一致性也能保持很好,不会出现模糊和变形的情况,这才是真正做得牛的地方。

说起来Vidu 在一致性上一直是第一梯队,之前就是他们家首个提出了参考生视频的概念和功能,后面又首发了对标Nano Banana的参考生图。

回到开头,一段视频的电影感从哪里来?

我的答案是运镜的精准理解。

说实在的,放在之前用AI视频模型去做运镜,80%的情况我还是都在抽卡,这也是很多广告行业、影视行业始终不敢大规模用AI视频的原因,随机性太强了,但是这次ViduQ2图生视频对于提示语中运镜的精准理解和控制真的让我震惊到,抽卡概率大幅下降,我相信AI视频在影视、广告行业大规模商业化能落地加速了。

那我们要如何测出一个视频新模型的全方位能力呢?

首先,要测 AI 有没有掌握镜头语言,最简单的方式就是让它做出不同的景别和镜头运动,我们先来一组稍微简单点的镜头变化。

镜头1:镜头拉近跟随潜水员向海水深处游去

镜头2:镜头迅速拉近到特写手电筒照射的光芒

镜头3:镜头迅速旋转到一侧展示一条巨型鲨鱼靠近

对比提示语可以看到,画面展现的每一个运动和控制的景别都和提示语一一对应,而且Q2生成的每一帧的镜头方向都对得上角色重心, 这才是真正的跟拍。

那我再来一组复杂的运镜变化,颠簸镜头跟随

镜头一:全景推进跟随FI赛车前进

镜头二:切换戴F1赛车头盔的驾驶员紧张驾驶F1赛车眼神

镜头三:镜头迅速转换,赛车加速前进

镜头四:F1赛车快速行驶全景视角,冲向终点

镜头五:看台上欢呼庆祝的观众特写视角

五个镜头又是全部对应上,而且重要的是,镜头在旋转和变换的过程中非常的丝滑流畅,没有以往AI切镜头时会发生的停顿感,切前切后不自然的感觉。

写提示语的风格还可以按照更自然语言的方式,依次将想要画面展示的部分罗列出来,然后说明镜头运动的方式,我们就可以得到一个帅爆炸的视频。

空中的拿着十字弩的女人向后高高跃起,正面瞄准的眼睛超特写,弩箭的超特写(反射寒芒),蓄力后,精钢箭矢飞出,镜头跟随箭矢高速飞行,穿过废弃医院四楼的破窗,射穿了一个徘徊者丧尸的头部。镜头在场景中穿梭,合理的安排全景,中景,特写,超特写和夸张表情镜头,自由运镜。动漫风格。

而且这次更新Q2还上了新的选项,增加了视频时长2-8秒的自由选择,灵活性更高,针对速度和质感还可以选择闪电大片模式或者电影大片模式,能够适配的场景更多更全面。

到这,我想说在画质、大动作、一致性、物理规律、语义理解这些难点一一被攻克之后,AI视频生成的下一个卷点,就是演技。

因为只有角色会演戏,有情感输出后,画面才不只是光影的堆砌,而是能打动人的故事。

Vidu Q2,就是这场AI演技进化的领路人。

它现在就可以告诉我们,AI也能通过细微的眼神、呼吸的起伏、肢体的张力,把喜怒哀乐传递出来,用镜头说我们喜欢的故事。

作者:阿汤 & 卡尔 公众号:卡尔的AI沃茨

本文由 @卡尔的AI沃茨 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

人人都是产品经理

人人都是产品经理

1153 文章 167911 浏览次数 58654 粉丝

评论 (0)

睡觉动画