多模态AI

Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。以下,AIbase将为您详细解析此次更新的亮点与意义。视觉能力突破Grok的视觉处理能力是此次更新的核心亮点之一。尽管早在2024年4月,xAI曾宣

苹果与索邦大学联合研究:早期融合与稀疏架构助力多模态 AI 发展

在多模态人工智能(AI)领域,苹果公司的工程师们与法国索邦大学的研究团队合作,展开了一项重要研究。近日,科技媒体 marktechpost 发布了相关博文,探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。研究表明,从头训练的早期融合模型在计算效率和可扩展性上更具优势。多模态 AI 的目标是同时处理图像、文本等多种数据类型,然而,整合这些不同来源的数据一直是一个难题。目前的技术普遍采用后

报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版

人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道,OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。这一波密集发布不仅彰显了OpenAI加速创新的雄心,也为行业带来了更强大的AI工具。GPT-4.1系列:多模态能力的全面升级作为GPT-4.0的继任者,GPT-4.1系列被认为是OpenAI在多模态AI领域的又一

AI日报:OpenAI下周或发布GPT-4.1系列;Pika全新AI视频功能Twists;商汤科技日日新V6震撼发布

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版OpenAI即将发布GPT-4.1系列及o3系列,标志着其在多模态和推理能力上的重大进展。GPT-

联想CTO:押注多模态AI协作,打造模型工厂加速智能体落地

在联想集团2025/26财年誓师大会上,首席技术官Tolga Kurtoglu强调,当前AI应用仍处于快速迭代的技术演示阶段,远未真正释放为用户创造价值的成熟能力。他指出,未来AI发展的关键在于将技术转化为以用户为中心的解决方案,构建联想独特的差异化优势。Kurtoglu描绘了未来以用户为中心的AI图景:它将不再受限于单一模型、芯片、设备或形态,而是由端侧、云端、边缘等多种模型和智能体协同运作,无