谷歌Veo 3强势发布：视频生成迈入音画同步新时代

AIbase基地

发布了 11569 文章

谷歌最近推出了其最新的视频生成模型 Veo3，标志着 AI 视频技术的一次重大飞跃。这款新模型实现了音画同步生成功能，能够根据用户的提示词，自动生成包含对白、唇动对齐和环境音效的高质量视频。这一突破使得 AI 视频制作跨越了多模态的边界，让视频不仅会动，还会说话。

Veo3的核心技术是名为 V2A（Video-to-Audio）的算法，该技术能够将视频的视觉信息转化为语义信号，并与文本提示结合生成音轨。结合谷歌在 YouTube 等平台上积累的丰富数据资源，Veo3在音画合成能力上展现出令人惊叹的表现。目前，该工具虽然仅面向美国的高阶订阅用户开放，但它的推出无疑给视频创作领域带来了新的可能性。

图源备注：图片由AI生成，图片授权服务商Midjourney

Veo3的强大功能体现在多个方面。首先，它能够自动生成唇动对齐的对话和拟真音效。例如，用户只需输入一句简单的提示，Veo3就能生成一段完整的场景视频，包含人物对话、环境音效，甚至是观众的笑声，这种真实感让人耳目一新。其次，Veo3具备对复杂提示的理解能力，可以生成逻辑连贯、时间有序的视频片段，这在以往的视频生成模型中是非常困难的。最后，该模型在处理物理世界声音方面表现出色，能够模拟脚步声、烹饪声等，使得视频更具生动性和沉浸感。

尽管 Veo3的短视频长度限制为8秒，并且目前仅面向249.99美元的高阶订阅用户，但其强大的音画同步能力已引发广泛关注。未来，随着技术的进一步发展，Veo3无疑将推动视频生成技术迈向新的高度。