「DeepSeek-V3 技术解析」:无辅助损失函数的负载均衡 61 0 编者按: 在混合专家模型(MoE)的实践中,负载不均衡俨然已成为制约模型性能提升的关键瓶颈之一。传统的均衡策略往往需要引入复杂的辅助损失函数,不仅增加了训练的复杂度,还可能干扰模型的核心学习目标。工程师们在提升模型效率的道路上,一直苦苦追寻着一个优雅而高效的平衡解决方案。DeepSeek 团队的这项研究,为这一长期困扰业界的技术难题提供了令人耳目一新的解决思路:通过在门控分数中直接添加
QuaDMix 大型语言模型(LLM) 数据选择框架 字节跳动 字节跳动推出 QuaDMix:大型语言模型预训练数据质量与多样性的统一框架 62 0 近日,字节跳动宣布推出其全新的数据选择框架 QuaDMix,旨在提升大型语言模型(LLM)预训练的效率和泛化能力。众所周知,模型的训练效果受基础数据集的质量和多样性影响很大。然而,传统的数据筛选方法往往将质量和多样性视为两个独立的目标,先进行质量过滤,再进行领域平衡。这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差,而多样化的数据集可能会降低质量。因此,在固定的训
Adobe 挑战 OpenAI,安卓 / iOS 版 AI 生图工具 Firefly 蓄势待发 62 0 IT之家 4 月 25 日消息,CNBC 昨日(4 月 24 日)发布博文,报道称 Adobe 公司为更有力挑战 OpenAI,计划推出移动版 AI 图像生成工具 Firefly。在伦敦 MAX 创意大会上,Adobe 公司宣布 Firefly 移动版将“很快”登陆 iOS 和安卓平台,但未公布具体日期。在接受 CNBC 采访时,Adobe Firefly 副总裁 Alexandru Costi
MarkItDownMCP 大型语言模型(LLM) 文档处理 Markdown 微软MarkItDown MCP,可把Word、Excel等转换成markdown格式 62 0 在数字化时代,如何有效地处理文档信息已经成为了许多行业中的一个热门话题。而今,微软推出的 MarkItDown MCP(Model Context Protocol)将文档处理提升到了一个新的高度!想象一下,您只需简单几步,就能将各种格式的文件(如 PDF、Word、PowerPoint 等)轻松转换为 Markdown 格式,为您的文本分析和大型语言模型(LLM)应用提供无缝支持。更为惊艳的是,
宫崎骏 动画艺术 AI图像生成 GPT-4o OpenAI的吉卜力,撞车了被字节起诉“投毒AI”的前实习生? 62 0 声明:本文来自于微信公众号硅星人,作者:周一笑,授权站长之家转载发布。想象一下,耗费动画大师宫崎骏数十年心血、一帧一画精雕细琢的艺术风格——比如《起风了》中耗时一年多的四秒人群场景,或是《幽灵公主》里那个生物钻地镜头背后一年零七个月的5300帧手绘,如今,在GPT-4o手中,似乎变得“唾手可得”。用户们兴奋地将个人照片、网络梗图甚至历史影像纷纷“一键吉卜力化”,其效果之逼真、风格之统一,迅速点
飞桨框架3.0 动静统一自动并行 训推一体 大模型 百度发布飞桨框架3.0,助力大模型时代的智能开发 62 0 4月3日,百度正式推出了飞桨框架3.0版。这一全新版本在设计理念上实现了全面进化,特别针对大模型的开发和推理需求,提供了五大核心特性,力求成为深度学习框架领域的领先者。随着大模型在各行各业的广泛应用,深度学习框架的作用愈发重要,而飞桨框架3.0正是为此而生。首先,飞桨框架引入了 “动静统一自动并行” 技术,显著降低了大模型的开发和训练成本,让算法创新更专注于核心价值的创造。此外,它的 “训推一体”
AI 代码生成 微软与Meta 纳德拉扎克伯格对话 程序员危!微软CEO纳德拉:公司高达30%代码是AI写的 62 0 快科技4月30日消息,在Meta的LlamaCon大会上,微软首席执行官萨蒂亚纳德拉与Meta首席执行官马克扎克伯格进行了一场公开对话。在对话中,纳德拉透露,微软代码库中约20%-30%的代码是由人工智能生成的。他还指出,微软在不同编程语言中使用AI生成代码的进展并不相同,例如在Python中取得了更多进展,而在C中进展则相对较小。微软首席技术官凯文斯科特(Kevin Scott)此前曾预测,
AI智能回复 微信公号 知识库 互动效果 惊!微信公号可以AI自动回复私信了,你们以后可以24小时和我聊天了! 62 0 声明:本文来自于微信公众号 一个胖子的世界,作者:柳胖胖,授权站长之家转载发布。今天上午10点15,微信公号发来了AI智能回复功能的开通邀请,我第一时间(其实我下午才看到)开通了一下,它号称可以基于我发的历史文章,来自动回复公号的私信。这个功能应该之前就在内测了,等于是生成了一个我的知识库(公众号版)。想知道互动效果咋样,你们可以发公号私信来试试😊开通的过程也挺有意思,就在我以为和公号的一般功
AI导航智能体 红绿灯AI领航 高德地图 AI超视距感知领航技术 高德地图推出全球首个基于地图的 AI 导航智能体 62 0 高德地图宣布推出全球首个基于地图的 AI 导航智能体,并在全国范围内正式上线。这一创新举措标志着导航服务从传统的出行工具向“会思考、能预判、有温度”的智能出行伙伴转变。此次上线的红绿灯 AI 领航功能,是高德地图在智能导航领域的一次重大突破。该功能通过强大的数字化和 AI 超视距感知领航技术体系,推演出红绿灯场景下的最优驾驶决策,为驾驶员提供全方位的过灯决策支持。红绿灯 AI 领航功能的上线,不仅
DeepSeekR1TChimera OpenRouter 685B参数模型 混合专家MoE架构 融合R1与V3-0324!DeepSeek R1T Chimera上线OpenRouter平台 63 0 DeepSeek R1T Chimera上线OpenRouter平台,融合R1与V3-0324优势引发关注。2025年4月27日,TNG Technology Consulting正式宣布推出这款全新的开源语言模型,为全球开发者提供高效、强大的AI工具。技术突破:智能与效率兼得DeepSeek R1T Chimera是一款基于混合专家(Mixture-of-Experts,MoE)架构的685B参
多模态推理 Skywork-R1V 模型升级 开源资源 高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI 63 0 声明:本文来自于微信公众号 新智元,授权站长之家转载发布。就在刚刚,全球首个工业界多模态推理模型Skywork-R1V,再次重磅升级!此前,R1V1.0首次成功实现了「强文本推理能力向视觉模态的迁移」,才短短一个月后,Skywork-R1V2.0就强势上线了。现在,R1V2.0的所有资源已全面开源,可以预见,多模态推理社区将迎来新一轮发展。模型权重:https://huggingface.co
ChatGPT OpenAI Shade iOS应用 ChatGPT iOS上线新语音“Shade”,又丧又EMO的状态 63 0 2025年4月2日,根据社交媒体Twitter上用户最新反馈,OpenAI旗下的ChatGPT在iOS应用中推出了全新语音选项“Shade”,目前已开始在iOS应用上逐步推送,并已经对部分用户开放使用。虽然目前关于“Shade”语音的具体细节尚未完全披露,但从用户的初步反馈来看,这一新语音被设计得更具个性,表现出了又丧又EMO的状态,可能融入了更自然的语调和情感表达,以贴近真实的人声对话。有分析人
亚马逊 生成式AI Nova Sonic 亚马逊推出AI语音模型Nova Sonic:价格比GPT-4o便宜80% 63 0 快科技4月9日消息,亚马逊正式推出新一代生成式AI语音模型Nova Sonic,标志着其在人工智能语音领域取得重大突破。这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。Nova Sonic通过亚马逊Bedrock开发者平台提供服务,采用创新的双向流式API接口,为企业级A
即梦AI AI绘画 2K高清图像 AIGC 即梦 AI 3.0 版本灰测:中文文字生成能力大幅提升 63 0 日前,即梦 AI 推出其全新版本3.0,目前正在进行小范围内测。这一版本的推出,尤其在中文文字生成方面展现了惊人的能力。在新版本的图像生成技术上,即梦 AI 进行了显著的优化,提升了图像的精细度,现可直接生成2K 高清图像,细节表现更加出色。同时,版本3.0还在文字生成方面取得了显著进步,解决了以往模型中出现的文字模糊问题。即使是小字体,清晰度也得到了提升。在构图方面,即梦 AI3.0能够更精准地
Grok3Mini xAI 高效AI 语言模型 xAI发布Grok3Mini:为开发者提供高性价比AI模型 63 0 xAI近日推出了其全新的语言模型——Grok3Mini,进一步推动了高效AI技术的发展。Grok3Mini专为速度和经济性设计,尽管体积较小,但在多个领域的表现优于许多更昂贵的AI模型,尤其在数学、编程和科学基准测试中表现突出。Grok3Mini:高性能与低成本的完美平衡Grok3Mini是Grok3系列的一部分,该系列包含六种变体,其中包括标准的Grok3、Grok3Fast,以及四种版本的Gr
Gemini GoogleDistributedCloud Blackwell 代理AI Google Distributed Cloud携手Gemini与NVIDIA,推进企业本地化AI部署 63 0 2025年4月9日,在Google Cloud Next2025大会上,Google Cloud宣布了一项重大合作计划,将其分布式云服务Google Distributed Cloud(GDC)与Gemini人工智能模型和NVIDIA的Blackwell架构相结合,为企业提供强大的本地化AI解决方案。这一合作旨在满足对数据主权和安全性有严格需求的行业,推动“代理AI”(Agentic AI)技术在