Midjourney操作界面

还在玩普通VR?HoloTime让你一键穿越到4D全景世界!

4.8
0热度

最近,在 VR 和 AR 技术领域,一项新研究成果引发了广泛关注,它就是 HoloTime。这一创新框架致力于解决当前4D 内容生成的难题,有望重塑我们在虚拟世界中的交互体验。今天,AIbase就来深入探究一下,HoloTime 究竟有什么神奇之处。为啥我们需要 HoloTime?现在的 VR 和 AR 技术越来越火啦,大家都想在虚拟世界里获得更逼真、更自由的体验。就像玩游戏的时候,要是能真的 “

最近,在 VR 和 AR 技术领域,一项新研究成果引发了广泛关注,它就是 HoloTime。这一创新框架致力于解决当前4D 内容生成的难题,有望重塑我们在虚拟世界中的交互体验。今天,AIbase就来深入探究一下,HoloTime 究竟有什么神奇之处。

image.png

为啥我们需要 HoloTime?

现在的 VR 和 AR 技术越来越火啦,大家都想在虚拟世界里获得更逼真、更自由的体验。就像玩游戏的时候,要是能真的 “走进” 游戏场景,和里面的一切互动,那得多爽!而这就需要超厉害的4D 内容,把时间维度也加到3D 场景里。

但理想很丰满,现实很骨感。目前4D 内容的生成技术还不太给力。现有的扩散模型大多只能搞定静态3D 场景,或者在小范围内展示物体的动态变化,根本没办法给我们带来那种完全沉浸其中的体验。为啥呢?主要是高质量的标注数据太少啦,尤其是大规模4D 场景的数据,简直是稀缺资源。所以现在的4D 生成方法,要么只能生成物体的动态,要么就只能展示固定视角的场景,看得人干着急!

那怎么解决这个问题呢?研究人员灵机一动,想到了全景图像。全景图像有360度的视野,要是能给它加上动态效果,不就能打造出超沉浸的4D 体验了吗?于是,HoloTime 就诞生啦!

HoloTime 是如何 “变身” 的?

HoloTime 的实现过程就像一场精彩的魔法表演,每一步都暗藏玄机!

360World 数据集:魔法表演的 “秘密道具”

巧妇难为无米之炊,想要训练出厉害的模型,得有高质量的数据。研究人员专门打造了360World 数据集,这里面全是固定摄像头拍摄的全景视频,一共有7497个高质量的视频片段,包含5380909帧画面,简直是个 “数据宝库”!

image.png

这些视频涵盖了各种真实场景,从美丽的自然风光到繁华的城市街景,应有尽有。而且每个视频都配有详细的文本描述,就像给每个场景都贴上了小标签,方便模型学习。研究人员先在 YouTube 上 “大海捞针”,找到合适的视频,然后用 ShareGPT4Video 这个超智能的大模型对视频进行分析,生成详细的文本提示,最后再用大语言模型加工一下,去掉那些和摄影相关的描述,留下最纯粹的场景内容和动态描述。有了这个数据集,模型训练就有了充足的 “粮草”!

全景动画生成器(Panoramic Animator):图像变视频的 “神奇画笔”

有了数据,接下来就是让全景图像 “动” 起来啦!这就得靠全景动画生成器,它就像一支神奇的画笔,能把静态的全景图像变成动态的全景视频。

它有三个 “魔法技能”:

混合数据微调(Hybrid Data Fine-tuning):普通视频和全景视频的数据分布差别很大,直接用全景视频数据微调模型,就像让一个习惯了吃米饭的人突然改吃面包,可能会 “消化不良”。所以研究人员找来了 ChronoMagic-Pro 数据集中的风景延时视频,这些视频虽然是用普通相机拍的,但和全景视频在语义和时间上有很多相似之处。把它们和360World 数据集混合在一起,就像给模型准备了一份营养均衡的 “大餐”,让模型能更好地学习动态效果。

两阶段运动引导生成(Two-Stage Motion Guided Generation):全景视频的视角是球形的,里面包含了超多的空间信息,但这些信息在不同分辨率下,模型学习起来的效果可不一样。低分辨率时,模型更容易学到全局的运动信息;高分辨率时,模型能捕捉到更多的空间细节。所以,研究人员想出了一个两阶段的生成方法。先让模型生成一个低分辨率的粗糙视频,确定全局的运动方向,就像画画先画个草图;然后再生成高分辨率的细化视频,添加丰富的细节,让视频看起来更逼真。这样一来,生成的视频在全局上有强烈的动态效果,在局部细节上也处理得非常好。

全景循环技术(Panoramic Circular Techniques):全景视频的左右两端连接得是否自然,对用户的体验影响很大。要是连接处有明显的断层,就像看电影突然卡了一下,别提多难受了。所以,全景动画生成器在生成视频的时候,会在左右两端创建重复的部分,在每次去噪步骤之后进行融合,让两端的过渡更加自然。而且,还会修改卷积层的填充操作,确保像素级的连续性。最后,再把重复的部分裁剪掉,就得到了无缝连续的全景视频啦!

全景时空重建(Panoramic Space-Time Reconstruction):视频变4D 场景的 “时空转换器”

视频有了,接下来就是把它变成4D 场景,这时候全景时空重建技术就派上用场啦!它就像一个时空转换器,能把全景视频 “升级” 成4D 场景。

空间对齐深度估计(Space Aligned Depth Estimation):要估计全景图像的深度可不容易,研究人员借鉴了360MonoDepth 的方法,把全景图像投影成多个透视图像,分别估计深度,再把这些深度图对齐、反投影,形成全景深度图。在这个过程中,还会给每个深度图分配一个可学习的缩放因子和偏移因子,用一个可学习的多层感知器(MLP)来优化深度值,让深度估计更准确。

时空深度估计(Space-Time Depth Estimation):对于全景视频来说,不仅每帧的深度要准确,帧与帧之间的深度还要保持一致,这就是时空深度估计要解决的问题。研究人员先用全景光流估计模型计算出视频中像素的运动信息,确定哪些区域有运动变化。然后,根据这些运动区域,自适应地选择合适的透视视角进行深度估计,同时参考前面帧的深度信息,确保深度的时空一致性。

4D 场景重建(4D Scene Reconstruction):完成深度估计后,就可以把全景视频和它的深度图转换成带有时间属性的4D 点云啦,这就是4D 场景的初始状态。研究人员选择时空高斯(Spacetime Gaussian)来表示4D 场景,在训练过程中,把视频投影到不同视角进行监督,通过扰动相机位置生成新的视角,让场景更加完整、渲染效果更稳定。

HoloTime 有多牛?

为了验证 HoloTime 的实力,研究人员进行了一系列实验,结果简直惊艳!

在全景视频生成方面,HoloTime 和360DVD 这个文本驱动的全景视频生成方法进行了对比。研究人员用大语言模型生成了一堆文本提示,让两个方法分别生成全景视频。从定性的角度看,HoloTime 生成的视频运动更加连贯,没有那些奇怪的瑕疵。用户研究的结果也显示,HoloTime 在图形质量、帧一致性、左右连续性、内容分布和运动模式等方面都表现出色。从定量的角度看,HoloTime 在多个评估指标上都超过了360DVD,生成的视频在细节和整体运动幅度上都更胜一筹。

在4D 场景生成方面,HoloTime 和基于光流的3D 动态图像技术3D-Cinemagraphy 进行了对比。在 “圆形” 和 “放大” 两种设置下,3D-Cinemagraphy 主要适用于创建流体效果,应用场景比较局限。而 HoloTime 利用视频扩散模型,能生成更复杂的纹理变化和空间运动,在生成4D 场景的质量和美学评分上都远超3D-Cinemagraphy,用户也更青睐 HoloTime 生成的场景。

研究人员还对 HoloTime 进行了消融实验,看看里面的各个技术到底有啥用。结果发现,混合数据微调能增强视频的时间细节和连贯性,两阶段运动引导生成对整体运动有重要影响,全景循环技术能有效防止视频出现不连续的接缝,时空深度估计中的时间损失项能保证深度的时间一致性。

未来展望:HoloTime 的无限可能

HoloTime 的出现,为 VR 和 AR 技术带来了新的希望。它能把静态的全景图像变成超沉浸的4D 场景,让我们在虚拟世界里的体验更加真实、自由。虽然目前它还有一些可以提升的地方,但随着技术的不断发展,未来 HoloTime 可能会在更多领域大显身手,比如虚拟旅游、沉浸式游戏、虚拟会议等等。说不定以后我们足不出户,就能通过 HoloTime “亲临” 世界各地的美景,和远方的朋友在虚拟世界里面对面交流,想想就超激动!宝子们,让我们一起期待 HoloTime 带来的更多惊喜吧!

论文地址:https://arxiv.org/pdf/2504.21650

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部