Hunyuan-GameCraft – 腾讯混元推出的交互式游戏视频生成框架

Hunyuan-GameCraft – 腾讯混元推出的交互式游戏视频生成框架

4.8
0热度

Hunyuan-GameCraft是什么Hunyuan-GameCraft 是腾讯 Hunyuan 团队和华中科技大学共同推出的高动态交互式游戏视频生成框架。基于将键盘和鼠标输入统一到共享的相机表示空间,实现精细的动作控制,支持复杂的交互输入。框架推出混合历史条件训练策略,能自回归地扩展视频序列,保留游戏场景信息,确保长期的时间连贯性。基于模型蒸馏技术,Hunyuan-GameCraft 显著

Hunyuan-GameCraft是什么

Hunyuan-GameCraft 是腾讯 Hunyuan 团队和华中科技大学共同推出的高动态交互式游戏视频生成框架。基于将键盘和鼠标输入统一到共享的相机表示空间,实现精细的动作控制,支持复杂的交互输入。框架推出混合历史条件训练策略,能自回归地扩展视频序列,保留游戏场景信息,确保长期的时间连贯性。基于模型蒸馏技术,Hunyuan-GameCraft 显著提高推理速度,适合在复杂交互环境中实时部署。模型在大规模 AAA 游戏数据集上进行训练,展现出卓越的视觉保真度、真实性和动作可控性,显著优于现有模型。

Hunyuan-GameCraft

Hunyuan-GameCraft的主要功能

  • 高动态交互式视频生成:从单张图片和对应的提示生成高动态的交互式游戏视频内容,支持用户基于键盘和鼠标输入进行实时控制。
  • 精细动作控制:将标准键盘和鼠标输入统一到共享的相机表示空间,支持复杂和精细的交互输入,如速度和角度控制。
  • 长期视频生成:支持生成长时间连贯的视频序列,保留历史场景信息,避免场景崩溃。
  • 实时交互:显著提高推理速度,降低延迟,支持实时交互,提升用户体验。
  • 高视觉保真度:在大规模 AAA 游戏数据集上进行训练,生成的视频具有高视觉保真度和真实感,适用多种游戏场景和艺术风格。

Hunyuan-GameCraft的技术原理

  • 统一动作表示:将键盘和鼠标输入(如 W、A、S、D、箭头键等)映射到连续的相机表示空间,基于轻量级的动作编码器将输入的相机轨迹编码为特征向量,实现平滑的动作插值。
  • 混合历史条件训练策略:基于历史上下文集成和掩码指示器,自回归地扩展视频序列。在每个自回归步骤中,用历史去噪块作为条件,引导新噪声潜变量的去噪过程,保留场景信息,解决自回归生成中的误差累积问题。
  • 模型蒸馏:基于 Phased Consistency Model (PCM) 实现模型蒸馏,将原始扩散过程和分类器自由引导蒸馏成紧凑的八步一致性模型,显著提高推理速度,降低计算开销。
  • 大规模数据集训练:在超过 100 款 AAA 游戏的超过一百万条游戏录制数据上进行训练,确保模型的广泛覆盖和多样性。用精心注释的合成数据集进行微调,提高精度和控制能力。

Hunyuan-GameCraft的项目地址

  • 项目官网:https://hunyuan-gamecraft.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2506.17201

Hunyuan-GameCraft的应用场景

  • 游戏视频生成:快速生成游戏预告片、演示视频和游戏内的过场动画,帮助游戏开发者在早期阶段验证游戏概念和设计。
  • 游戏测试:自动生成游戏场景和交互,用在测试游戏的性能和玩家体验,减少手动测试的工作量。
  • 游戏内容扩展:为现有游戏生成新的关卡、场景和交互内容,延长游戏的生命周期,增加玩家的参与度。
  • 互动视频内容:为视频平台和社交媒体生成互动式视频内容,用户输入指令控制视频的发展,提供全新的观看体验。
  • 虚拟现实(VR)和增强现实(AR):在 VR 和 AR 应用中生成沉浸式的交互式内容,增强用户的沉浸感和参与感。

首页 发现
看过 我的