标准会员
过期时间
会员积分 0
还没有账号? 立即注册
已有账号? 立即登录
OpenAI创始人Sam Altman近日在与YC总裁Garry Tan(陈嘉兴)的访谈中,重磅预告了GPT大模型的最新进展:OpenAI即将推出强大的开源模型,并暗示了GPT-5的部分能力。这次访谈信息量极大,我们给大家划下重点:一、OpenAI即将推出一个开源模型,GPT-5迈向完全多模态Sam Altman预告,OpenAI即将发布一个开源模型。这个模型将远超大家的期望,并且具备在本
文|王方玉编辑|苏建勋《智能涌现》从多个信源处独家获悉,「银河通用」已完成新一轮融资,融资金额超10亿元,创下今年以来具身智能赛道最大的单笔融资。本轮融资由电池龙头宁德时代及溥泉资本领投,国开科创、北京机器人产业基金、纪源资本等机构跟投,并获得多家老股东追加投资。2024年6月和11月,银河通用曾分别宣布超7亿元的天使轮融资和5亿元战略轮融资。截至目前,银河通用累计融资金额已超过23亿元
聊OpenAI、谈平台转型、展望AI未来,阿尔特曼万字深度访谈干货。智东西6月22日消息,6月18日,OpenAI联合创始人兼CEO萨姆・阿尔特曼(Sam Altman)做客知名科技播客Uncapped with Jack Altman。在40分钟的访谈中,阿尔特曼对话亲弟弟、本次访谈的主持人杰克・阿尔特曼(Jack Altman),谈AI未来、OpenAI最新进展、供应链影响、Meta挖
计算机专业从神坛跌落?全美入学率仅增0.2%,斯坦福、杜克等顶尖高校招生大不如前。计算机博士求职8个月未果,有人狂投600份简历上岸,AI或成「就业杀手」。谁曾想,曾经炙手可热的计算机专业,正逐渐走向「冷门」......The Atlantic最新数据让人傻眼:今年全美计算机专业入学率仅微增0.2%,不少顶尖院校招生几乎停滞。过去一年,杜克大学计算机科学入门课程的报名人数,直接腰斩20%
Hunyuan-GameCraft是什么Hunyuan-GameCraft 是腾讯 Hunyuan 团队和华中科技大学共同推出的高动态交互式游戏视频生成框架。基于将键盘和鼠标输入统一到共享的相机表示空间,实现精细的动作控制,支持复杂的交互输入。框架推出混合历史条件训练策略,能自回归地扩展视频序列,保留游戏场景信息,确保长期的时间连贯性。基于模型蒸馏技术,Hunyuan-GameCraft 显著
Mu是什么Mu是微软推出的小参数语言模型,仅3.3亿参数,支持在 NPU 和边缘设备上高效运行。模型基于编码器解码器架构,基于硬件感知优化、模型量化及特定任务微调,实现每秒超100 tokens的响应速度。Mu支持Windows设置智能体,能将自然语言指令实时转化为系统操作,如调整屏幕亮度、鼠标指针大小等。与-Phi3.5-mini相比,Mu参数量小10倍,但性能相当。其创新包括双重层归一化、
子曰3(Confucius3-Math)是什么Confucius3-Math是网易有道开源的“子曰3”系列大模型中的数学模型,是国内首个专注于数学教育的开源推理模型。具有140亿参数,专为K-12数学教育场景优化,可在单块消费级GPU(如RTX 4090D)上高效运行,推理性能约为DeepSeek R1的15倍,服务成本每百万token低至0.15美元,远低于大多数通用大模型。在多个数学数据集
PosterCraft是什么PosterCraft是香港科技大学(广州)和美团等机构推出的用在生成高质量美学海报的统一框架。框架摒弃模块化设计流程和固定的预定义布局,支持模型自由探索连贯且视觉上引人入胜的构图。框架基于四个关键阶段的级联工作流优化高美学海报的生成,可扩展的文本渲染优化、高质量海报微调、基于美学文本的强化学习以,及视觉-语言反馈精炼。每个阶段用专门的自动化数据构建管道支持,满足特
Ring-lite是什么Ring-lite是蚂蚁技术AntTech团队推出的基于MoE架构的轻量级推理模型。模型用Ling-lite-1.5为基础,基于独创的C3PO强化学习训练方法,在多项推理Benchmark上达到SOTA效果,仅用2.75B激活参数。Ring-lite基于稳定强化学习训练、优化Long-CoT SFT与RL的训练比重、解决多领域任务联合训练难题等技术创新,实现高效推理。R
Lingshu是什么Lingshu是阿里巴巴达摩院推出的专注于医学领域的多模态大型语言模型。模型支持超过12种医学成像模态,包括X光、CT扫描、MRI等,在多模态问答、文本问答及医学报告生成等任务上展现出卓越的性能。Lingshu基于多阶段训练,逐步嵌入医学专业知识,显著提升在医学领域的推理和问题解决能力。推出7B、32B两个参数版本,其中32B版本在多个医学多模态问答任务中超越GPT-4.1
PreenCut是什么PreenCut是开源的AI视频剪辑工具,基于WhisperX实现高精度语音转录,结合DeepSeek和豆包API提供语义化搜索和智能剪辑功能。工具具备自动语音转录、AI智能分段、自然语言搜索、智能剪辑导出、批量处理等核心功能。PreenCut支持基于自然语言描述快速定位视频片段并导出剪辑,极大提升视频剪辑效率,适用长视频精剪、教育内容整理、影视后期制作等多种场景。P
Dive3D是什么Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配(Score Implicit Matching,SIM)损失替代传统的KL散度目标,有效避免模式坍塌问题,显著提升3D生成内容的多样性。Dive3D在文本对齐、人类偏好和视觉保真度方面表现出色,在GPTEval3D基准测试中取得优异的定量结果,证明了在生成高质量、多样化3D资产方面的强大能力。
RAG-Anything是什么RAG-Anything是香港大学数据智能实验室推出的开源多模态RAG系统。系统支持处理包含文本、图像、表格和公式的复杂文档,提供从文档摄取到智能查询的端到端解决方案。系统基于多模态知识图谱、灵活的解析架构和混合检索机制,显著提升复杂文档处理能力,支持多种文档格式,如PDF、Office文档、图像和文本文件等。RAG-Anything核心优势包括端到端多模态流水线
你能想象吗?一个在立陶宛车库里诞生的创业项目,仅仅一年时间就做到了 1200 万美元的年收入,服务超过 4 万家付费客户,遍布全球 100 多个国家。更令人震惊的是,它的创始人 Chris Sidlauskas 在创立 Sintra 时才 22 岁,而他的联合创始人 Rokas Judickas 甚至更年轻。这家刚刚完成 1700 万美元种子轮融资的 AI 公司,正在用一种截然不同的方式重新定义
6月23日,山西临汾市人民医院发布了《基于DeepSeek AI大模型的智慧医疗应用系统建设项目》,预算金额为1569.264万元,预计采购时间为2025年9月。临汾市人民医院拟采购基于DeepSeek的智慧医疗项目建设一套,其建设内容包含:1、基于大模型的患者服务应用系统:基于大模型的患者服务应用系统包含智能导诊与分诊系统、诊前病史采集系统。2、基于大模型的医疗质量管理相关系统:建立基于大模型
IT之家 6 月 24 日消息,谷歌 DeepMind 今日发布博客文章,宣布推出一种全新的 Gemini Robotics On-Device 本地化机器人 AI 模型。该模型基于视觉-语言-动作(VLA)架构,无需云端支持即可实现实体机器人控制。核心特性包括:技术能力:独立运行于机器人设备,支持低延迟响应(IT之家注:适用于网络不稳定场景,如医疗环境)完成高精度操作任务(如打开包袋拉链、叠衣
11569 文章 95.03万 关注
1489 文章 0 关注
1221 文章 5.64K 关注
1210 文章 5.87万 关注
1093 文章 9.63万 关注
1024 文章 5.63K 关注