趋势洞察 1天前 121 浏览次数 0 评论

火山引擎多媒体实验室重要突破!LiveGS 技术登榜 SIGGRAPH,重新定义移动端自由视角视频直播

InfoQ
InfoQ

发布了 320 文章

近日,火山引擎多媒体实验室的最新研究成果 LiveGS: Live Free-Viewpoint Video via High-Performance Gaussian Splatting for Mobile Devices 成功入选计算机图形学顶会 SIGGRAPH Emerging Technologies,并于 2025 年 8 月 10 日至 8 月 14 日在加拿大温哥华对外展出。这一技术突破首次实现了移动端实时自由视角视频(FVV)直播的完整链路落地,在视觉保真度、计算效率和传输成本之间达成了前所未有的平衡,为互动直播、沉浸式娱乐等场景开辟了技术新范式。


<!---->

图 1 论文主页

打破技术瓶颈:从实验室走向移动端的实时自由视角革命


自由视角视频(FVV)允许用户从任意角度探索场景,是元宇宙、沉浸式直播等前沿领域的核心技术。但长期以来,体积视频的高计算负载和高带宽传输需求一直是移动端应用的“拦路虎”。火山引擎多媒体实验室的 LiveGS 系统通过三大创新,首次实现了“端到端实时 FVV 直播”的工程化落地:

三大技术突破,重新定义移动端 FVV 标准

1. 实时 3D 高斯表示:告别离线优化,毫秒级重建逼真人体模型


传统 3D 高斯泼溅技术需要几分钟乃至几十分钟进行场景优化,无法满足直播需求。LiveGS 创新性采用前馈神经网络架构,结合 Sobel 特征自适应建模策略,对人体不同区域(如平坦肤色区与细节丰富的头发、衣物)采用粗细粒度差异化建模,在保证渲染质量的前提下,将高斯数量减少 70%,实现无需逐场景优化的实时 3D 重建。实验显示,系统可在 A10 显卡上以超过 30 FPS 的帧率运行,延迟控制在 1 秒以内。


<!---->

图 2 LiveGS 前馈神经网络架构图


2. 低损耗压缩传输:500 倍压缩率下 PSNR 损失<3dB,适配标准视频链路


LiveGS 将 3D 高斯属性(尺度、不透明度、深度等)映射到 2D 视频平面,采用 YUV 4:2:0 格式结合可变位打包(VBP)技术进行量化编码。通过基于渲染重要性的比特率分配策略(深度和 RGB 区域优先编码),在实现 500 倍压缩的同时,将画质损失控制在 PSNR 3dB 以内,完美适配现有视频传输链路,带宽需求低于 20Mbps。


<!---->

图 3 LiveGS 编码传输示意图

3. 移动端渲染优化:区域化高斯裁剪,算力消耗直降 70%


针对移动端算力限制,LiveGS 提出基于掩码的高斯选择策略:高频区域(如面部、手部)保留全部像素高斯,低频区域(如躯干)仅保留 1/3 像素,渲染高斯数量减少 70%。结合混合渲染技术,在 iPhone 15 等设备上实现了 30FPS 流畅的视角旋转、缩放等交互操作,推动 FVV 从 PC 端走向大众移动端。

抖音“裸眼 3D”直播


同时,多媒体实验室还成功研发了一项创新技术,该技术能通过普通的单目视频直接生成自由视角视频,并且具备直播能力。实验室和抖音团队一起成功落地了“裸眼 3D”直播,带给用户全新的直播观看体验!


经过云端 AI 大模型处理,2D 直播可以被实时处理为带有 3D 信息的直播流,包含深度等 3D 空间信息,然后经过编码、转码等处理,通过直播链路分发至用户设备。在移动客户端上,根据深度信息,实时对直播内容进行 3D 重建;用户通过晃动手机,可将 3D 内容实时渲染至不同的观看视角,从而实现“裸眼 3D”效果。


从技术创新到场景落地:开启沉浸式互动新体验


LiveGS 的突破不仅是算法层面的革新,更构建了“实时采集 - 云端重建 - 压缩传输 - 移动端渲染”的完整技术闭环解决方案,其应用场景覆盖:


  • 体育赛事直播:用户可自由切换视角,360°解析运动员动作细节,如篮球扣篮的空中姿态、赛车过弯的轮胎动态;

  • 虚拟偶像演出:支持多角度实时互动,观众可自定义镜头焦点,打造「私人定制」的沉浸式观看体验;

  • 远程会议与教育:动态捕捉演讲者姿态与手势,结合自由视角切换增强跨空间沟通的临场感;

  • 电商直播:用户可 360°查看商品细节(如服饰剪裁、珠宝纹理),以沉浸式交互提升购物决策效率。


<!---->

图 4 LivsGS 直播系统架构示意图

附录


火山引擎多媒体实验室的前沿探索


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


关于火山引擎


火山引擎是字节跳动旗下云和 AI 服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力,推进企业 AI 转型,激发增长潜能。

InfoQ

InfoQ

320 文章 46547 浏览次数 0 粉丝

评论 (0)

睡觉动画