Midjourney操作界面

谷歌DeepMind Genie 2亮相《60 Minutes》,革新3D交互环境生成技术

4.8
0热度
HuggingFace

CBS著名栏目《60Minutes》深入报道了谷歌DeepMind人工智能研究实验室的最新突破,重点聚焦其全新AI模型——Genie2。据AIbase了解,Genie2能够从单一图像或简单文本描述生成高度逼真的3D交互式环境,为机器人训练、虚拟世界构建及通用人工智能(AGI)发展开辟了新路径。社交平台上的热烈讨论凸显了其技术革新性,相关细节已通过DeepMind官网(deepmind.google

CBS著名栏目《60Minutes》深入报道了谷歌DeepMind人工智能研究实验室的最新突破,重点聚焦其全新AI模型——Genie2。据AIbase了解,Genie2能够从单一图像或简单文本描述生成高度逼真的3D交互式环境,为机器人训练、虚拟世界构建及通用人工智能(AGI)发展开辟了新路径。社交平台上的热烈讨论凸显了其技术革新性,相关细节已通过DeepMind官网(deepmind.google)与Hugging Face公开。

元宇宙 科幻 赛博朋克 绘画 (1)大模型

图源备注:图片由AI生成,图片授权服务商Midjourney

核心功能:从单一输入到交互式3D世界

Genie2以其端到端的3D环境生成能力,标志着AI世界模型的重大进步。AIbase梳理了其主要亮点:  

单一输入生成:通过一张静态图像(如瀑布照片)或文本提示(如“雪地中的战士”),生成可探索的3D交互环境,无需人工设计。  

高度逼真交互:支持物理模拟(如重力、水流、烟雾)、动态光影与角色动画,用户或AI代理可通过键盘/鼠标进行跳跃、游泳等操作。  

环境一致性:具备长时记忆功能,可记住未显示的场景部分(如转角后的地形),生成时长达10-60秒,多数示例为10-20秒。  

多视角支持:提供第一人称、第三人称与等距视角,适配游戏、虚拟现实(VR)与机器人训练场景。  

自我学习优化:通过用户反馈与交互数据,AI可迭代改进生成环境,提升物理真实性与视觉质量。

AIbase注意到,节目演示中,Genie2将一张加州瀑布照片转化为第一人称视角的交互世界,生成的水池、雾气与远景地形高度逼真,展现了其从2D到3D的自动化建模能力。

技术架构:视频驱动与自回归建模

Genie2基于DeepMind的Gemini架构与大规模视频数据集,结合先进的生成技术。AIbase分析,其核心技术包括:  

时空视频分词器:将视频分解为空间与时间元素,捕捉细节以生成逼真渲染,参考了Genie(11B参数)的架构。  

自回归动态模型:逐帧生成视频,根据用户操作与先前帧预测后续场景,确保环境连贯性。  

潜在动作模型:通过无监督学习从视频中提取可控动作(如移动机器人而非树木),支持交互性。  

大规模视频训练:利用未标注的互联网视频数据集,训练模型理解物理、材质与光影,生成多样化3D世界。  

SIMA代理集成:与DeepMind的SIMA AI代理结合,代理可执行自然语言指令(如“开门”或“导航地形”),增强环境交互。

AIbase认为,Genie2的端到端建模与自学习能力使其超越传统游戏引擎(如Unity),为AI驱动的动态世界生成树立了新标杆,其与SIMA的协同进一步推动了机器人训练的智能化。

应用场景:从游戏原型到机器人训练

Genie2的多样化功能使其在多个前沿领域展现出广阔前景。AIbase总结了其主要应用:  

游戏开发:快速将概念艺术或草图转化为可玩3D环境,缩短原型设计时间,适合独立开发者与AAA游戏工作室。  

虚拟现实与数字艺术:生成沉浸式VR场景或交互式艺术作品,适配Oculus或数字展览,提升用户体验。  

机器人训练:为AI代理提供多样化3D训练环境,模拟现实场景(如工厂、城市),加速机器人导航与操作能力的开发。  

教育与模拟:生成历史场景(如古埃及城市)或科学模拟(如行星地貌),增强教学互动性与研究可行性。  

城市规划与建筑:将草图或照片转化为3D建筑模型,支持实时交互与设计迭代,优化规划流程。

社区案例显示,一位开发者利用Genie2将“古罗马竞技场”草图转化为可探索的3D环境,生成的场景包含动态光影与物理交互,原型制作时间缩短至数分钟。AIbase观察到,Genie2与Gen-4References的图像混合技术结合,或进一步扩展至动态内容创作。

上手指南:研究工具与未来开放性

AIbase了解到,Genie2目前定位为研究与原型工具,暂未向公众开放,需通过DeepMind或Hugging Face的测试通道申请访问。开发者可参考以下步骤准备体验:  

访问DeepMind官网(deepmind.google)或Hugging Face(huggingface.co/deepmind),申请Genie2测试权限;  

访问 DeepMind 官网(deepmind.google)或 Hugging Face(huggingface.co/deepmind),申请 Genie2测试权限;

准备输入数据(如图像或文本提示),推荐高分辨率照片以优化生成质量;  

配置运行环境,推荐A100GPU或高性能集群(50GB VRAM)以支持实时生成;  

使用键盘/鼠标测试交互功能,或集成SIMA代理执行任务(如导航或物体操作);  

提供反馈至DeepMind社区,助力模型迭代与潜在开源。

社区建议为复杂场景提供详细提示(如“包含水流与雾气的森林”),并测试短时生成(10-20秒)以降低硬件需求。AIbase提醒,Genie2的60秒一致性限制可能影响长时交互,建议关注DeepMind更新以获取优化版本。

社区反响与改进方向

Genie2亮相《60Minutes》后,社区对其3D交互生成与机器人训练潜力给予高度评价。开发者称其“将静态图像转化为动态世界的过程令人叹为观止”,认为其在游戏与VR领域具有颠覆性潜力。 然而,部分用户指出生成时长(10-60秒)与图像质量衰减问题限制了商业化应用,建议延长一致性时间。社区还期待开源代码与更低的硬件门槛。DeepMind回应称,Genie2将持续优化一致性与渲染效率,未来可能与Gemini Robotics整合以增强机器人交互。AIbase预测,Genie2可能推出云端API服务,类似Perplexity的SaaS模式,降低使用成本。

未来展望:通向AGI的基石

Genie2的发布彰显了DeepMind在世界模型与AGI研究中的领先地位。AIbase认为,其从单一输入生成交互式3D环境的能力,不仅解决了AI训练环境匮乏的瓶颈,还为机器人与虚拟现实的现实应用奠定了基础。 社区已在探讨将其与Simular AI或Qwen-Agent整合,构建从环境生成到任务自动化的闭环生态。长期看,Genie2可能演变为“3D世界平台”,提供共享环境模板与API,类似Hugging Face的模型生态。AIbase期待2025年Genie2在一致性优化、开源计划与多模态交互上的突破。

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部