强化学习(RL) 大模型 清华大学 上海交通大学 学术打假!清华上交大研究颠覆认知:强化学习竟是大模型推理的"绊脚石" ⭐0 👥0 【研究颠覆】清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。【实验验证】研究团队在数学、编码和视觉推理三大领域进行了系统性实验:数学任务:在GSM8K、MATH500等基准测试中,RL模型在低采样次数(k值)下准确率提升,但在高k值时问题覆盖
DeepCoder-14B-Preview TogetherAI Agentica 大模型 开源新模型 DeepCoder:超高效编程,超越OpenAI o1模型 ⭐0 👥0 在科技发展的浪潮中,人工智能(AI)技术日新月异。最近,由著名大模型训练平台 Together AI 和智能体平台 Agentica 联合开源的新模型 DeepCoder-14B-Preview,吸引了广泛关注。该模型以仅有的140亿参数,在代码测试平台 LiveCodeBench 上的得分为60.6%,超过了 OpenAI 的 o1模型(59.5%),仅略低于 o3-mini(60.9%)。这一
AI 人工智能 cursor AI大模型 大语言模型 大模型 vscode agi LLM DeepSeek DeepSeek+VScode=无敌!本地搭建免费AI代码编辑器,Cursor最佳平替,真的太好用了!小白也能轻松学会!大模型|LLM ⭐0 👥0
发现《Undead Funeral March》 2023年度科技榜单 AI GPT4 文心一言 通义千问 讯飞星火 蓝心小V 大模型 GLM OriginOS4 2024bilibili迎春会 万字测评!18个主流大模型深度评测,读懂AI现状【深度模评03】 ⭐0 👥0
AI AI评测 人工智能 大模型 AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优 ⭐0 👥0 国产AI模型多点开花。还有不到一周就2025年了,各大社交音娱平台相继自动弹出“年度报告”的搜索选项。身处AI元年,AI模型这份年终答卷,自然也少不了。 智东西12月25日报道,智源研究院12月19日发布了FlagEval“百模”评测结果,今年国产大模型与海外大模型战况焦灼。 在其闭源大模型评测能力总榜中,字节跳动的豆包通用模型pro拿到主观评测最高分,OpenAI的o1-mini拿到客观评测最