金磊 发自 凹非寺
量子位 | 公众号 QbitAI
国庆假期Sora 2的横空出世那叫一个吸睛,尤其是客串(Cameo)功能,直接把Sora拉到了“AI版抖音”的高度。
但有一说一,在国内,这个玩法早就已经有了。
我们先上传一张奥特曼的照片,来感受下最近比较火的秒变风格的视频:
奥特曼在房间关上灯,画面瞬间变成漫画风格。

视频地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
这个功能叫做参考生,来自Vidu,模型选择的是Vidu Q2。实际上Vidu 去年9月就在全球首个提出【参考生】视频功能,Vidu Q2已经是其参考生视频的第5个迭代版本了。
而同样的提示词给到Sora 2,它生成的效果是这样的:

视频地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以看到,Sora 2并没有get到我们提示词里的“关灯”,而是选择碰了一下门把手,并且视频开头也是较为昏暗。
(虽然语义理解不佳,但Sora 2的优势是音视频可以一锅出。)
而且剧透一个好消息,据说在这个月底,Vidu Q2参考生视频还会迎来重大的更新。
我们已经拿到了内测资格,因此,按照老规矩,一波实测,走起~
Vidu Q2参考生视频 PK Sora2
Vidu Q2的参考生功能,从操作角度来看,一大优势就是可以上传多张图片(参考图可以多达7个),然后一句话让它们直接联动起来,像这样:

对生成视频的结果,我们还可以选择时长、清晰度、宽高比和一次生成视频的数量等:

从这个角度来看,参考生在操作上确实是要比Sora 2要灵活得多。
那么接下来,我们就进一步从不同维度来一场PK。
Round 1:一致性大比拼
毕竟一致性是视频生成领域一直以来的一大痛点,因此第一轮的比拼,咱们就来看看它俩是否能做到前后一致。
有请金牌销售——奥特曼:
奥特曼介绍一下图中的包包。

视频地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以看到,Vidu Q2在生成视频的过程中,无论是包包还是人物,全程没有异常的变化。
并且放大图片做对比,包包各处拼接的颜色也是与原图高度相符:

同样的Prompt,我们再来“喂”给Sora 2,依旧是让奥特曼来介绍:

视频地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
Sora 2依旧的优势在于奥特曼说着中文介绍着这款包包,但……
最基本的一致性却没有保持住,甚至包包各处的颜色都已经变了样,连包带儿都时而三条时而两条。

整体来看,一致性这块儿,Vidu Q2可以说是完胜了。
Round 2:物理规律遵循
除了一致性之外,另一个考量AI视频生成好坏的因素,就要属遵循物理规律了。
接下来,我们来上一点难度,参考图是这样的:

这张图的难点显而易见,就是考验大模型们是否能精准的按照物理规律,把舞者在镜中各个角度的姿态表现出来。
Vidu Q2请听题:
图中的女子在图中的舞蹈房内,从图片中的动作开始,翩翩起舞,动作流畅一致,镜面反射出舞蹈全景,镜头缓慢环绕捕捉舞蹈细节。

视频地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
毕竟这道题目的难度系数较高,虽然还是有一点细节出错,但Vidu Q2参考生整体的表现还算是不错。
但到了Sora 2这里,“华点”就有点多了。
首先还是老问题,不允许上传包含写实人物的图像;于是,我们便替换成了一张动漫的人物:

结果……动漫人物依旧是无法生成……索性我们就直接用文字Prompt去生成:

视频地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
从最终的结果来看,能看清的人物(包括镜面里)有3位,整体完成度较高;配上了音乐也是比较加分(虽然最后误闯进一位摄影师)。
整体来看,在遵循物理规律方面,两位选手可以说是各有亮点。
Round 3:运镜哪家强?
最后,在一致性和物理规律之后,AI视频生成中运镜的使用,也是非常加分的一点。
这次的参考图是这样的:

运镜方面,我们分了三段Prompt:
0-1s镜头1,头发飘扬,拉开弓,超近特写,背景是黑暗森林闪着奇幻的光,箭射出去。切镜头。
1-6s镜头2,黑暗游拿着弓在黑暗森林里快速跑动跳跃,镜头自由跟随,特写全身自由切换,在树林中穿梭,急速大幅度不断跳跃,闪烁。切镜头。
6-8s镜头3,一个旋转镜头环绕人脸慢动作特写,露出邪魅的笑容。
首先是Vidu Q2的表现:

视频地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
如何?是不是有动漫片段的效果了?
镜头是仅仅跟随人物,从近景到远景再到拉近,可谓是一气呵成。
接下来是Sora 2的表现:

视频地址:https://mp.weixin.qq.com/s/B-WVA1DrFLek8e0JueLSvg
可以明显看到,Sora 2生成的切镜会更多,而Vidu是一镜到底的跟随运镜。
因此,这一轮,两者各有优势,Vidu Q2 参考生更符合日常动漫中镜头运镜语言,Sora 2的不停切镜则渲染了紧张的氛围。
中美视频生成PK,已经来到了Next Level
通过以上几个维度的实测,我们可以清晰地看到当前AI视频生成领域的发展现状 。
在这次Vidu Q2参考生视频与Sora 2的直接PK中,两者几乎打了个平手。
Sora 2在音视频同步输出方面具备优势 ,但在更关乎视频内容核心质量的维度上,Vidu Q2参考生视频展示了其独到的处理能力。
不过有一说一,这场比拼的意义远不止于评判两个模型孰优孰劣,它更揭示了行业未来的走向正逐渐被实际应用的需求所定义 。
AI视频技术能否成功的关键,在于它是否能从一个仅能生成惊艳片段的玩具,转变为一个能无缝融入创作者工作流的生产力工具 。
当下的创作者需要的不仅仅是随机、不可控的创意火花,而是能够精确执行指令、稳定复现角色的可靠伙伴。
这正是一致性等功能所具备的战略价值 。保持角色和场景、道具的一致,是实现AI短剧、AI数字人广告乃至虚拟偶像IP等一系列商业应用的基础 。
如果每一次生成的人物都面目全非,那么任何形式的叙事都无从谈起。Vidu Q2参考生视频在此处的深耕,本质上是在尝试解决AI视频工业化生产的核心难题。
即将技术转化为可规模化、可商业化的稳定产出 。
从这个角度看,构建真正的“AI版抖音”,比拼的也绝非单一的视频生成效果 。这个战场是一个包含了从创意构思到内容生成、再到精细化编辑、分发与商业化的完整生态。

△创作者@陈畅用Vidu Q2参考生制作的短片
在生态方面,Vidu 目前基于产品矩阵构建了主体库共享生态,商业化生态,创作者生态等,核心模型产品驱动的完整生态才是其最大的竞争壁垒。
因此,这场技术竞赛不仅是中美顶级模型之间的一次较量,更应该被视为AI视频生产力革命的序章 。
无论是Sora 2还是Vidu Q2,它们的快速迭代都在推动着技术的成熟和成本的降低 。
One More Thing
正如我们在最开始预告的,Vidu Q2参考生视频要在这个月底有一波重大的更新。
据悉Vidu Q2 参考生不仅能支持专业半专业用户群体的真实需求,同时也能完全满足广告电商、影视动漫短剧、互动娱乐等商业领域客户的更高要求,此外,使用体验也将对C端用户非常友好。
我们可以大胆猜测一波,生数科技Vidu这次是否也要将音频的模态容纳进来呢?
Vidu Q2体验地址:
https://www.vidu.cn/create/character2video
— 完 —
量子位 QbitAI · 头条号
关注我们,第一时间获知前沿科技动态