谷歌DeepMind Genie 2亮相《60 Minutes》，革新3D交互环境生成技术

CBS著名栏目《60Minutes》深入报道了谷歌DeepMind人工智能研究实验室的最新突破，重点聚焦其全新AI模型——Genie2。据AIbase了解，Genie2能够从单一图像或简单文本描述生成高度逼真的3D交互式环境，为机器人训练、虚拟世界构建及通用人工智能（AGI）发展开辟了新路径。社交平台上的热烈讨论凸显了其技术革新性，相关细节已通过DeepMind官网(deepmind.google)与Hugging Face公开。

图源备注：图片由AI生成，图片授权服务商Midjourney

核心功能:从单一输入到交互式3D世界

Genie2以其端到端的3D环境生成能力，标志着AI世界模型的重大进步。AIbase梳理了其主要亮点:

单一输入生成:通过一张静态图像（如瀑布照片）或文本提示(如“雪地中的战士”)，生成可探索的3D交互环境，无需人工设计。

高度逼真交互:支持物理模拟（如重力、水流、烟雾）、动态光影与角色动画，用户或AI代理可通过键盘/鼠标进行跳跃、游泳等操作。

环境一致性:具备长时记忆功能，可记住未显示的场景部分（如转角后的地形），生成时长达10-60秒，多数示例为10-20秒。

多视角支持:提供第一人称、第三人称与等距视角，适配游戏、虚拟现实（VR）与机器人训练场景。

自我学习优化:通过用户反馈与交互数据，AI可迭代改进生成环境，提升物理真实性与视觉质量。

AIbase注意到，节目演示中，Genie2将一张加州瀑布照片转化为第一人称视角的交互世界，生成的水池、雾气与远景地形高度逼真，展现了其从2D到3D的自动化建模能力。

技术架构:视频驱动与自回归建模

Genie2基于DeepMind的Gemini架构与大规模视频数据集，结合先进的生成技术。AIbase分析，其核心技术包括:

时空视频分词器:将视频分解为空间与时间元素，捕捉细节以生成逼真渲染，参考了Genie（11B参数）的架构。

自回归动态模型:逐帧生成视频，根据用户操作与先前帧预测后续场景，确保环境连贯性。

潜在动作模型:通过无监督学习从视频中提取可控动作（如移动机器人而非树木），支持交互性。

大规模视频训练:利用未标注的互联网视频数据集，训练模型理解物理、材质与光影，生成多样化3D世界。

SIMA代理集成:与DeepMind的SIMA AI代理结合，代理可执行自然语言指令（如“开门”或“导航地形”），增强环境交互。

AIbase认为，Genie2的端到端建模与自学习能力使其超越传统游戏引擎（如Unity），为AI驱动的动态世界生成树立了新标杆，其与SIMA的协同进一步推动了机器人训练的智能化。

应用场景:从游戏原型到机器人训练

Genie2的多样化功能使其在多个前沿领域展现出广阔前景。AIbase总结了其主要应用:

游戏开发:快速将概念艺术或草图转化为可玩3D环境，缩短原型设计时间，适合独立开发者与AAA游戏工作室。

虚拟现实与数字艺术:生成沉浸式VR场景或交互式艺术作品，适配Oculus或数字展览，提升用户体验。

机器人训练:为AI代理提供多样化3D训练环境，模拟现实场景（如工厂、城市），加速机器人导航与操作能力的开发。

教育与模拟:生成历史场景（如古埃及城市）或科学模拟(如行星地貌)，增强教学互动性与研究可行性。

城市规划与建筑:将草图或照片转化为3D建筑模型，支持实时交互与设计迭代，优化规划流程。

社区案例显示，一位开发者利用Genie2将“古罗马竞技场”草图转化为可探索的3D环境，生成的场景包含动态光影与物理交互，原型制作时间缩短至数分钟。AIbase观察到，Genie2与Gen-4References的图像混合技术结合，或进一步扩展至动态内容创作。

上手指南:研究工具与未来开放性

AIbase了解到，Genie2目前定位为研究与原型工具，暂未向公众开放，需通过DeepMind或Hugging Face的测试通道申请访问。开发者可参考以下步骤准备体验:

访问DeepMind官网（deepmind.google）或Hugging Face(huggingface.co/deepmind)，申请Genie2测试权限;

访问 DeepMind 官网（deepmind.google）或 Hugging Face(huggingface.co/deepmind)，申请 Genie2测试权限;

准备输入数据（如图像或文本提示），推荐高分辨率照片以优化生成质量;

配置运行环境，推荐A100GPU或高性能集群（50GB VRAM）以支持实时生成;

使用键盘/鼠标测试交互功能，或集成SIMA代理执行任务（如导航或物体操作）;

提供反馈至DeepMind社区，助力模型迭代与潜在开源。

社区建议为复杂场景提供详细提示（如“包含水流与雾气的森林”），并测试短时生成(10-20秒)以降低硬件需求。AIbase提醒，Genie2的60秒一致性限制可能影响长时交互，建议关注DeepMind更新以获取优化版本。

社区反响与改进方向

Genie2亮相《60Minutes》后，社区对其3D交互生成与机器人训练潜力给予高度评价。开发者称其“将静态图像转化为动态世界的过程令人叹为观止”，认为其在游戏与VR领域具有颠覆性潜力。然而，部分用户指出生成时长（10-60秒）与图像质量衰减问题限制了商业化应用，建议延长一致性时间。社区还期待开源代码与更低的硬件门槛。DeepMind回应称，Genie2将持续优化一致性与渲染效率，未来可能与Gemini Robotics整合以增强机器人交互。AIbase预测，Genie2可能推出云端API服务，类似Perplexity的SaaS模式，降低使用成本。

未来展望:通向AGI的基石

Genie2的发布彰显了DeepMind在世界模型与AGI研究中的领先地位。AIbase认为，其从单一输入生成交互式3D环境的能力，不仅解决了AI训练环境匮乏的瓶颈，还为机器人与虚拟现实的现实应用奠定了基础。社区已在探讨将其与Simular AI或Qwen-Agent整合，构建从环境生成到任务自动化的闭环生态。长期看，Genie2可能演变为“3D世界平台”，提供共享环境模板与API，类似Hugging Face的模型生态。AIbase期待2025年Genie2在一致性优化、开源计划与多模态交互上的突破。