产品评测 1月前 149 浏览次数 11 评论

一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版

AI中国
AI中国

发布了 7788 文章

文心一言两周年,百度一口气上新两款模型,并且上来就是一个主题:免费。


这个消息一夜间在𝕏(原Twitter)上引来大批歪果网友关注,相当炸裂。画风是酱婶儿的:


你们能不能把页面也用英文展示一下?



有没有英文/国际版啊?



可把玩不上的网友给急坏了。


毕竟,这次百度带来的不仅有半个多月前承诺的新一代原生多模态基础大模型文心大模型4.5,能力更全⾯的深度思考模型文心大模型X1也无预告突然同步上线。



两款模型现已在文心一言官网上免费向用户开放。


同时,在百度智能云千帆大模型平台,现可直接调用文心4.5 API,文心X1也即将上线:


文心4.5输入0.004元/千tokens,输出0.016元/千tokens;文心X1输入0.002元/千tokens,输出0.008元/千tokens。



看到新模型性能和这打了骨折的价格,歪果网友们更加坐不住,手动艾特奥特曼、OpenAI。





新模型发布,量子位童鞋按老规矩第一时间深入实测了一波,具体来看效果如何~


实测最新文心大模型


据介绍,文心X1是首个自主运用工具的深度思考模型,不仅理解、规划、反思、进化能力更强,且支持多模态。


而文心4.5,是百度自主研发的新一代原生多模态基础大模型,通过多模态联合建模实现协同优化,在图片、音频、视频等多模态理解方面都很给力。



根据模型特点,我们对文心X1重点测试了中文知识问答、文学创作、工具调用和逻辑推理等能力;对文心4.5考验其图片理解、视频分析能力。



文心大模型X1


先从推理模型的拿手好戏——逻辑推理开始测试。


来道曾让不少网友头疼的经典逻辑题热热身:


有兄弟二人,哥哥上午说实话,下午说谎话,而弟弟正好相反,上午说谎话,一到下午就说实话。
一个人问:你们谁是哥哥?
胖子说:我是哥哥。瘦子说:我是哥哥。
那个人又问:现在几点了?
胖子说:快到中午了。瘦子说:已经过中午了。
请问:现在是上午还是下午?谁是哥哥?



文心X1下场解题,推理过程一目了然,第一次尝试就成功了(答案:现在是上午,胖子是哥哥):



看来问题还是太简单了,好好好,上难度。


下面这题传说是爱因斯坦曾提出的一道高难度逻辑推理题,据说世界上只有2%的人能够推出正确答案。


咱也不知道这传言保不保真,就问题本身来看,的确很有意思:




着实有点没想到,文心X1在这道题上也能成功答对。


随着题目难度提升,它的推理思考过程明显变长,一番详细分析后,不仅给出了正确答案“德国人养鱼”,还成功正确推导出德国人住在绿色房子里等更多信息。



逻辑推理强只是文心X1的一个方面,与其它推理模型相比,文心X1更大的特色在于能够灵活调用各种工具


目前,X1已⽀持⾼级搜索、⽂档问答、图⽚理解、AI绘图、代码解释器、⽹⻚链接读取、 TreeMind树图、百度学术检索、商业信息查询、加盟信息查询等诸多⼯具。


借助这些工具,文心X1能生成包含图片、表格、代码等更丰富的多模态内容。



比如,当你询问《红楼梦》中主要人物关系时,它能自动调用高级联网和代码解释器,帮你绘制图表、生成配图。



当然,上传图片或文档让它解析也可以。


随手上传一种没见过的蔬菜,它除了能正确回答出菜名,还自主补充了其营养价值、烹饪方法等更多信息,包括中药养生价值、储存方法这种细节。




测试还发现,复杂问题的规划分析也是它的强项。


要是让它写一份“五月新疆伊犁深度漫游指南”,从交通、住宿到每天具体行程安排和预算,它都能帮你一并搞定。



最后关于文心大模型X1,还有个特点值得一提,它的文本创作不仅观点鲜明,创意写作的想象力也让人眼前一亮。


比如让它用“红楼体”分析“高山和大树谁更自由”,它还真编出了一个有模有样的情景,belike:




文心大模型4.5


接下来再康康新一代原生多模态基础大模型文心4.5。


文心4.5在多模态方面就更全能了,支持文档、图片理解,还能搞定音频、视频分析



你可以直接用语音和它聊天,实测方言也能听懂。



各种梗图,秒秒钟get到意思:



对于视频,文心4.5能准确识别视频中的场景、画面、物品等信息。目前支持单个最大20MB视频分析。



除了放出新模型,百度这次在模型的实现方法上也透露了更多技术细节。


自主运用工具的深度思考模型


文心大模型X1作为首个自主运用工具的深度思考模型,不仅在性能上对标DeepSeek-R1,具备“长思维链”,擅长中文知识问答、文学创作、逻辑推理等,而且增加了多模态能力和多工具调用,能理解和生成图片,还能调用工具生成代码、图表等丰富内容。


上面我们的实测也可以看出它在这几个方面的表现尤为出色。


具体到技术细节上,文心大模型X1背后的关键技术包括:


其一,递进式强化学习训练方法。即将学习任务分解成多个子任务,让AI在难度相对较低或更简单的阶段中先学习到一定的技能或知识,再逐步提高任务难度,或者再将这些技能组合起来,以应对更复杂、更具挑战性的环境。


X1创新性地应用了递进式强化学习方法,在创作、搜索、工具调用、推理等场景中全面提升模型的综合应用能力。


其二,基于思维链和行动链的端到端训练。针对深度搜索、工具调用等场景,根据结果反馈进行端到端模型训练,能显著提升训练效果。


其三,多元统一的奖励系统


研发人员为X1建立了统一的奖励体系,融合多种类型的奖励机制,为模型训练提供了更加鲁棒的反馈。


△文心大模型X1的自我描述


文心大模型4.5方面,值得关注的是“原生多模态”。相较于非原生多模态模型,原生模型联合预训练能实现更深层次的模态融合,实现更强的模态交互、理解能力。


在此背后,研发团队主要应用了以下技术:


  • FlashMask动态注意力掩码:加速大模型灵活注意力掩码计算,能有效提升长序列建模能力和训练效率,优化长文处理能力和多轮交互表现。
  • 多模态异构专家扩展技术:根据模态特点构建模态异构专家,结合自适应模态感知损失函数,解决不同模态梯度不均衡问题,提升多模态融合能力。
  • 时空维度表征压缩技术:在时空维度对图片和视频的语义表征进行高效压缩,大幅提升多模态数据训练效率,增强了从长视频中吸取世界知识的能力。
  • 基于知识点的大规模数据构建技术:基于知识分级采样、数据压缩与融合、稀缺知识点定向合成技术,构建高知识密度预训练数据,提升模型学习效率,大幅降低模型幻觉。
  • 基于自反馈的Post-training技术:融合多种评价方式的自反馈迭代式后训练技术,全面提升强化学习稳定性和鲁棒性,大幅提升预训练模型对齐人类意图能力。


另外,为了减少模型幻觉,文心两大新模型还有百度RAG、iRAG技术的加持。


RAG方面,百度研发了“理解-检索-生成”协同优化的检索增强技术,能够生成准确率更高、时效性更好的答案。


iRAG是百度自研的检索增强文生图技术,将百度搜索的亿级图片资源跟强大的基础模型能力相结合,能生成远胜于文生图原生系统的超真实图片。


△文心一言生成


百度坚决投入下一代基础模型


在中国大模型舞台上,百度入局最早,也始终是最受国内外关注的玩家之一。


正如开头所言,文心大模型两大新模型上线,迅速引爆了海内外大模型关注者的测评热情,影响力可见一斑。


△文心大模型时间线


事实上,在2024年,文心大模型日均调用量实现了持续高速增长。根据最新百度2024年第四季度及全年财报,与2023年同期的5000万次调用量相比,文心大模型日均调用量一年增长33倍,达到了16.5亿。


在此背后,百度一直坚持压强式、马拉松式的研发投入。近十年累计研发投入超过1800亿元。


百度创始人李彦宏也在百度25周年全员信中表示:


25年来,我们始终走在技术的最前沿,始终相信技术创新才是百度的核心竞争力,我们多年来一直把超过收入20%的资金投入到研发上,并且不遗余力地尝试把最前沿的技术产品化、商业化,让更多的人从中受益,因为我们相信只有规模化的应用才能让技术发挥它的价值。


目前,百度已经实现芯片层、框架层、模型层和应用层的全栈自研布局。此番,这种自研技术储备也在模型API价格上体现出了优势——


文心大模型X1 API,输入价格0.002元/千tokens,输出价格0.008元/千tokens。与DeepSeek R1标准时段价格相比,价格便宜一半。



文心大模型4.5 API,输入价格0.004元/千tokens,输出价格0.016元/千tokens,为GPT-4.5价格的1%。



而今年后续,百度也已经被爆料接下来还有基础模型方面的大动作:


开源方面,依据此前预告,百度将在6月30日正式开源文心大模型。


预计今年下半年,还将发布文心大模型5.0。


2025年,基础模型在被预言“碰壁”之后,却又迎来一波更新的新高潮。而随着模型越来越强,同时又越来越便宜,大模型应用的爆发,已经蓄势待发。


现在,百度亮出了新的王牌,为这一趋势增添了新的变数。


文章来自于“量子位”,作者“西风 鱼羊”。


AI中国

AI中国

7788 文章 1194603 浏览次数 950300 粉丝

评论 (11)

用户头像

百度这波免费出击,真给力!大家快来用!

用户头像

这波操作,我感觉我变了,变得更...百度!

用户头像

这波免费出击,我感觉自己被洗白了

用户头像

百度这波操作,我有点害怕,但也想试试

用户头像

感觉我的人生都因为这波免费而变得更精彩

用户头像

这简直是智商税,但不得不承认,给力!

用户头像

这波操作,我支持!但还是有点吓人

用户头像

这算什么?我早就知道百度会这么做!

用户头像

我感觉我看到了未来,百度真给力!

用户头像

简直是拯救世界的良方,必须大力支持!

睡觉动画