松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

松下推出 “OmniFlow” 多模态生成AI实现文本、图像与音频的自由转换

4.8
0热度

松下控股公司(Panasonic HD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成 AI 的应用潜力。近年来,多模态生成 AI 的研究越来越受到关注,尤其是结合音频的生成技术。然而,传统方法

松下控股公司(Panasonic HD)联合美国松下研发公司(PRDCA)及加州大学洛杉矶分校(UCLA)的研究人员,成功开发出名为 “OmniFlow” 的多模态生成 AI。这项技术的亮点在于其具备 “任意对任意” 的生成能力,可以实现文本、图像和音频之间的自由转换,极大地提升了多模态生成 AI 的应用潜力。

image.png

近年来,多模态生成 AI 的研究越来越受到关注,尤其是结合音频的生成技术。然而,传统方法在数据获取上存在局限,尤其是在同时处理文本、图像和音频数据时,所需的训练数据量和成本大幅增加。针对这一难题,OmniFlow 通过灵活结合针对不同数据格式的生成 AI(如文本与音频、文本与图像),即使在小样本情况下,也能学习到高精度的 “任意对任意” 模型,从而显著降低了数据采集的成本。

image.png

OmniFlow 的技术创新已获得国际认可,并将在2025年计算机视觉与模式识别会议(CVPR)上进行展示。该技术的核心在于,它能够通过连接和处理三种不同数据特征,学习更为复杂的数据关系,而不是简单地对输入数据进行平均处理。这种方法让 OmniFlow 在生成过程中不仅保留了各模态的特点,也提升了表达能力。

image.png

在评估实验中,OmniFlow 在 “文本转图像” 和 “文本转音频” 的生成任务中,表现优于其他传统方法,展现出最佳的性能。实验结果显示,与其他 “任意对任意” 生成方法相比,OmniFlow 所需的训练数据量可减少至1/60,这一显著的优势让其在多模态 AI 领域脱颖而出。

展望未来,OmniFlow 有望在工厂、生活方式等多个领域进行应用,能够生成各种专门针对特定场景的数据。松下控股将继续推动 AI 的社会化应用,致力于开发能为客户生活与工作带来便利的 AI 技术。

首页 发现
看过 我的