苹果公司 大语言模型 LLM 汉诺塔 苹果再轰AI推理能力,GitHub大佬怒怼:这不是推理能力的真实面貌! ⭐0 👥0 最近,苹果公司发布了一篇引发热议的论文,指出当前的大语言模型(LLM)在推理方面存在重大缺陷。这一观点迅速在社交媒体上引起热议,尤其是 GitHub 的高级软件工程师 Sean Goedecke 对此提出了强烈反对。他认为,苹果的结论过于片面,并不能全面反映推理模型的能力。苹果的论文指出,在解决数学和编程等基准测试时,LLM 的表现并不可靠。苹果研究团队采用了汉诺塔这一经典的人工谜题,分析了推理模
大语言模型 LLM 北京大学 宋国杰 北大团队首次系统性评估大语言模型心理特征,推动AI评估新标准 ⭐0 👥0 在人工智能迅猛发展的今天,大语言模型(LLM)展现出了超凡的能力,但如何科学评估它们的 “心智” 特征,比如价值观、性格和社交智能,依旧是一个亟待解决的难题。近期,北京大学的宋国杰教授团队发布了一篇全面的综述论文,系统梳理了大语言模型心理测量学的研究进展,为 AI 的评估提供了新视角。这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》,长达63页,引用了500篇相关文献。随着 LLM
Gemini-2.5-pro 大语言模型 MathArena 数学能力评测 Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型 ⭐0 👥0 2025年4月3日消息:根据MathArena最新发布的大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro以绝对优势领跑,在未污染的高难度数学竞赛中展现出令人瞩目的表现。突破性成绩Gemini-2.5-pro在MathArena平台的严格评测中取得了24.40%的准确率,这一成绩不仅位居榜首,更是与第二名DeepSeek-R1 的4.76%形成鲜明对比,领先优势达到惊人的五
发现《铸剑山庄》 探索deepseek 数据可视化 AI 编程 chatgpt 大语言模型 豆包 kimi LLM 语言模型 国内最好用的AI软件,deepseek、Kimi、豆包!DeepSeek获顶级域名认可!【虎扑锐评】 ⭐0 👥0
RAG NodeRAG Retrieval-AugmentedGeneration 大语言模型 RAG增强系统Node:AI检索革命,效率飙升30%! ⭐0 👥0 随着生成式人工智能技术的飞速发展,检索增强生成(Retrieval-Augmented Generation, RAG)系统正成为提升大语言模型(LLM)准确性和上下文相关性的关键技术。近日,一款名为NodeRAG的创新RAG增强系统引起了业界广泛关注,其独特的异构图结构为RAG工作流带来了革命性突破。NodeRAG:异构图驱动的RAG新范式NodeRAG是一个以图结构为核心的RAG框架,通过引入
ZeroSearch 大语言模型 通义实验室 北京大学 通义实验室、北大发布新技术ZeroSearch 让LLM检索能力激活,成本降低88% ⭐0 👥0 最近,通义实验室和北京大学的研究团队推出了一项名为 ZeroSearch 的创新框架,这一新技术可以在不需要真实搜索的情况下,激活大语言模型的检索能力,并且训练成本降低了惊人的88%。这一突破为大语言模型的训练和应用提供了全新的思路。传统的训练方法通常依赖于真实的搜索引擎来获取信息,这不仅造成了高昂的 API 调用成本,还可能因搜索结果的质量不稳定而影响模型的表现。ZeroSearch 巧妙地通过
大语言模型 人工智能 文字掌握 人类文明 AI进化论——音乐、绘画和舞蹈的DeepSeek时刻 ⭐0 👥0 声明:本文来自于微信公众号 AI微果酱,作者:黄永轩,授权站长之家转载发布。“昔者仓颉作书,而天雨粟,鬼夜哭”——人类掌握文字后,天地为之动容,因为属于人类的文明诞生了。“仓颉作书”出自西汉《淮南子》,距离人类掌握文字已经过去了千年。也许,下一个千年,后人记载2025年大语言模型的涌现时,也会做出类似的描述。当机器掌握文字后,人类文明必然发生嬗变,只是身在局中的我们,感知不到这种天地动容的震撼
AI广告审核 谷歌广告 大语言模型 深度伪造 谷歌利用 AI 技术去年封停 3920 万广告账号,效果显著 ⭐0 👥0 谷歌近期宣布,2022年该公司成功封停了3920万个广告主账号,数量是2023年的三倍。这一成绩主要归功于谷歌在广告审核中应用的先进人工智能技术。通过大语言模型的辅助,谷歌能够在广告投放前识别出商业冒充、非法支付信息等违规行为,从而快速暂停大部分广告账户。谷歌广告安全总经理亚历克斯・罗德里格兹在一次虚拟媒体会议上指出,这些 AI 模型在改进广告安全方面发挥了重要作用,尽管如此,整个过程仍有人工审核