过去两个月,不少人被一段“动物跳水”短视频刷了屏——在标准跳水台上,大象、小猪、柯基轮番登场,以高难度的动作跳入水中,甚至耳边还会伴随有专业的赛事解说和人群欢呼,从动作编排到入水细节,视频的逼真程度堪比电影特效。
不仅是“动物跳水”,诸如动物拟人化情景演绎、切割不同材质物品的解压视频等一类AI生成视频,早已开始席卷抖音、小红书、B站等各大内容平台。
而这样的视效水平,过去只存在于制作精良的影视作品中。
在这些视频背后,不仅形成了围绕“脚本制作——关键帧创作——视频生成”的一连串工作流,甚至还催生出一批靠AI视频创作变现的“数字导演”。
事实上,早在2022年,市面上就开始出现了一系列AI生成视频,但当时的视频画面,往往存在失真、怪异、观感差等各种问题,只在小范围内有所传播。
转折点出现在2024年。OpenAI在二月发布Sora,以DiT(Diffusion + Transformer)架构为核心,突破了视频生成在时长、清晰度、逻辑一致性等方面的瓶颈,让“AI生成视频”第一次真正具备了走向大众市场的可能。
之后越来越多的厂商开始借鉴DiT或其他混合模型架构的模式,陆续发布对标 Sora 的闭源模型产品,如24年6月推出的Runway Gen-3、Luma Dream Machine;7月底全面上线的快手可灵等。
时间来到下半年,视频生成类模型更是呈现了井喷式的增长。阿里、字节等巨头纷纷押注,智谱、MiniMax等创业公司也快速跟进。曾经因技术瓶颈被质疑的AI视频,俨然已经成为了AI模型商业化最拥挤的赛道之一。
01
大小厂“诸侯混战”
各自的牌面有多大?
与已经经历三年演进和淘洗的大语言模型不同,无论是性能表现还是市场格局,AI视频生成模型仍处在“诸侯割据”的早期阶段。
自2024年起迎来密集爆发后,这一赛道在模型能力、用户心智乃至具体落地场景上,都尚未形成类似ChatGPT、Claude、Gemini等在LLM领域的头部垄断格局。
目前,视频生成模型虽尚未建立统一的评测体系,但“时序一致性”“帧画质”“提示词遵循度”“生成稳定性”等,往往成为通用测评关键词。而从多个测评榜单的变化趋势来看,各个模型之间仍存在较为明显的排名波动,领先优势尚未固化。
以今年4月和7月的AGI-Eval(由多所国内顶尖高校和研究机构联合发布)榜单为例,仅仅三个月时间,前十排名便发生大幅洗牌,能维持榜上位置的仅剩Pika 1.5、MiniMax的 Video-01、爱诗科技的PixVerse V4。而其他原本上榜的模型,或被自家迭代版本替代,或已被后来者赶超。
值得一提的是,榜单上除了有阿里、字节等互联网大厂,minimax、爱诗科技等创业公司也赫然在列,且国内厂商的出现率明显略高于国外厂商。
图片来源:AGI-Eval官网
另一方面,由于模型生成路径的不同,文生视频(Text-to-Video)与图生视频(Image-to-Video)在测评维度上也存在较大差异。据国际测评机构Artificial Analysis今年7月的榜单,仅有一半模型能同时跻身两类前十,也进一步说明当前的模型能力仍处于尚未定型的快速演进期。
图片来源:Artificial Analysis官网(截止2025.8.6)
当下,有不少声音认为大语言模型已进入“技术平台期”。GPT-5迟迟未能发布、Claude 4经历长达11个月的版本跨度、DeepSeek新产品迟迟未现……相较之下,在视频生成模型中,模型迭代仍处于初期向成熟过度的爆发地段,大厂与创业公司都在以2至4个月的频率推陈出新。
以快手可灵为例,从2023年6月上线至今,平均不到两个月就推出了一次新功能;2025年上半年更是完成了从1.6到2.1之间的两次模型大版本迭代。Minimax旗下的海螺,自从去年8月上线以后,也在三个月内实现了三次迭代,并于今年6月再次推出新模型海螺02。
尽管整体格局尚未完全明朗,但就国内厂商而言,近半年以来,快手、字节、MiniMax、爱诗科技等在各类评测中的排名基本都能维持在前10之列,位列第一梯队。
这一趋势同样体现在用户侧的使用排名中。据POE榜单显示,快手可灵、MiniMax海螺长期市场份额位于前列。而字节即梦由于新版本上线时间较晚(2025年6月),在5月榜单中尚未露面。
图片来源:Poe,《报告:2025年春季人工智能模型使用趋势》
02
AI视频生成的爆发式崛起:
内容土壤、成本革命与平台竞速
某种程度上说,AI视频生成之所以能在近一年时间里迎来井喷式增长,是一种“天时地利人和”的结果。
除了Sora带来的技术瓶颈突破,视频内容的持续扩张,构成了AI视频落地最坚实的“土壤”。据QuestMobile数据,截至2024年9月,中国移动视频行业的月活用户已达11.36亿,增速明显,视频内容正成为流量的核心载体。
更关键的是,AI大幅降低了视频制作的人力成本、时间成本与技术门槛。无论是实拍视频中所涉及的导演、演员、场地、后期等复杂流程,还是动画视频所需的渲染、建模、特效等高技能工序,AI视频都能在几秒钟内“一键生成”。
典型的例子,一部由迪士尼、皮克斯出品的顶级动画电影,其每分钟制作成本高达200万美元,而AI模型生成的相似画面,目前已可将单位成本压缩至每分钟300美元左右。
尽管现阶段的视频生成模型在效果稳定性、剧情连贯性上仍有明显短板,通常只能输出几秒至几分钟的片段,但这却恰好匹配了短视频、短剧等轻内容场景的要求。
短视频不仅在时长要求上需求更低,用户注意力碎片化,也使得内容形式本身具备了更高容错率。AI工具也就自然而然成为了短视频剪辑师、MCN机构乃至普通创作者的增效神器。
为了快速占领创作者市场,不同于语言大模型从闭源走向开源的策略路径,视频生成厂商则选择反其道而行之,从开源起步,给予用户一定的免费使用权限,在拉新沉淀用户习惯后,在通过订阅制实现商业变现。
例如,快手可灵、字节即梦、腾讯混元均通过赠送积分、免费次数等方式引导C端订阅。百度绘想则在2025年7月初推出时开放了免费试用;而通义万相则以模型源码的形式上传至GitHub的方式进行开源分发。
背靠内容平台的分发资源和用户流量,字节、快手等内容大厂在国内C端用户占据上更具优势,已开始构建起“模型生成—内容创作—平台分发”的闭环生态,将AI能力直接注入短视频作者链条中,实现用户对视频模型的自然渗透。
相比之下,诸多创业公司如爱诗科技PixVerse、MiniMax海螺等,则将目标用户对准了海外市场。
以爱诗科技为例,此前有公开数据表示,PixVerse总用户已经达到了6000万以上,月活用户超1600万,而这一数据公开时爱诗还尚未发布国内产品,并且单就用户量来看,PixVerse已经成为了全球用户量最大的AI视频生成产品。
从模型性能来看,国内创业公司在多项榜单中表现优于海外竞争者。但在国内市场缺乏天然流量入口和品牌优势的背景下,出海成为了他们绕过强平台、寻找蓝海的最优解。
除此之外,生数科技Vidu则选择将目标放在了B端市场,于今年四月和飞书、百度搜索达成了合作。而在此之前,也分别与AR,VR等设备厂商、影视动漫网站等开展了合作。
03
模版还是工具?
AI视频生成走向分岔路
通过在社交软件上的相关评论可以发现,同样面向短视频创作,快手和抖音呈现出了不同的内容优势,可灵在国风、二次元方面占优势,而即梦善于写实、艺术领域的内容生成。
两者之所以选择出各自的垂类赛道,一定程度上迎合了各自平台的内容特色。以真实生活记录为内容导向的快手,在模版选择上更加接地气,而以娱乐化、潮流化为趋势的抖音,则在风格化能力上更为突出。
来源:可灵官网 来源:即梦官网
但无论是可灵还是即梦,当AI视频生成模型服务于短视频创作时,模版特效和提示词设计的效果和稳定性,成了AI视频生成类教程里逃不开的关键词。
换句话说,“选得快、改得少、出片稳”才是决定工具使用频率的核心变量。
事实上,爱诗科技PixVerse之所以能够在海外获得如此高的用户量,一定程度上也得益于其模板化的视频生成思路,通过提供众多5s左右的“模版特效”,简化创作者的生成路径,类似的功能,在海螺、可灵中也有相似。
模版特效的优势在于能够极大降低创作者的制作门槛,做出符合平均水平的视频效果。但与此同时,它的副作用也同样明显:确实能跑量,但无法拉长生命周期。一旦用户审美疲劳,内容热度转瞬即逝,ROI表现也难以持续。
而这恰恰是AI视频在内容平台中面临的结构性困境——效率很高,但很难留下“经典”。
从这个角度来看,AI视频依然要去探索长时间、高质量视频的模型生成模式。
作为2018年就开始推出第一个视频生成模型的老大哥,Runway走在了更前面,根据官方数据显示,尽管过去一年,Runway的官网访问量不足可灵的二分之一,但ARR却几乎达到了可灵的六倍。
Runway的商业逻辑,与短视频模式走向了截然相反的路径,通过与电影公司等高附加值产业合作,生产较为高品质的影视内容作品。
区别在于,Runway将视频生成更多定位为“创意效率工具”,而非低门槛生产工具。它的核心功能主要有中间帧控制、AI角色的表情与动作复刻、视频扩展等,在实现效率的同时,核心的创意输出依然由人类自身所掌控。
当市面上开始涌现出越来越多的AI产品,留给行业和时代的问题,更需要从对AI效率转化性能的评价,转向厘清AI工具的使用边界,让真正的增量内容从中生长出来。
本文来自微信公众号“新眸”(ID:xinmouls),作者:简瑜,36氪经授权发布。