AI热点 13 hours ago 70 Views 0 Comments

AI日报:通义开源AI编程大模型Qwen3-Coder;​360将推智能眼镜和AI录音笔;谷歌发布Gemini 2.5 Flash-Lite 稳定版

AI中国
AI中国

Published 7847 Articles

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、谷歌发布全新 Gemini 2.5 Flash-Lite 稳定版:速度与成本的完美平衡

谷歌发布了 Gemini 2.5 Flash-Lite 稳定版,该模型在速度和成本之间取得了良好的平衡,支持高达100万 token 的上下文,并提供了多种高级功能。其定价策略具有竞争力,同时在性能上超越了之前的版本。

【AiBase提要:】

⚡Gemini 2.5 Flash-Lite 是谷歌最新发布的速度最快、成本最低的 AI 模型,已进入稳定版本(GA)

💰每百万输入 token 定价为0.10美元,输出为0.40美元,音频输入价格降低40%

🔧开发者可通过指定模型名 gemini-2.5-flash-lite 使用新版本,原有预览版别名将于8月25日移除

2、腾讯混元自主研发ASR语音识别大模型接入ima平台

腾讯混元的ASR大模型在ima平台的应用,为用户提供了更高效的语音输入体验。该模型具备强大的语义理解能力,尤其在中英文混杂场景中表现突出,同时支持多种应用场景,如知识库问答和笔记创作。

【AiBase提要:】

✅ 腾讯混元ASR大模型实现手机App端语音输入功能,提升输入效率。

💡 采用基于双编码器的流式ASR架构,显著提升语义理解能力。

🌐 支持多语言及方言识别,未来将持续优化以满足多样化需求。

3、通义千问开源最新AI编程大模型Qwen3-Coder

阿里云宣布其最新AI编程大模型Qwen3-Coder全面开源,该模型在代码生成和Agent能力上达到顶尖水平,为智能编程技术带来新突破。Qwen3-Coder拥有强大的MoE架构和长上下文处理能力,适用于大规模代码库和动态数据处理。

【AiBase提要:】

🔥 Qwen3-Coder采用先进的MoE架构,参数量高达480B,支持256K上下文长度。

💡 预训练阶段通过多维度扩展策略提升代码能力,7.5T训练数据中70%为代码。

🚀 开源工具Qwen Code增强解析器和工具支持,提升开发者使用体验。

详情链接:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct Hugging Face:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507 Qwen Code GitHub:https://github.com/QwenLM/qwen-code

4、360将推智能眼镜和AI录音笔 周鸿祎:眼镜带显示功能

360公司董事长周鸿祎透露,公司将发布AI录音笔与智能眼镜。AI录音笔能够智能分析场景并总结要点,而智能眼镜需要显示功能以创造新的应用场景,如提词器和翻译工具,提升沟通效率。

【AiBase提要:】

🧠 AI录音笔具备智能分析不同场景的能力,能精准总结要点。

👓 智能眼镜需配备显示功能以凸显优势,创造新应用场景。

🌐 智能眼镜可充当提词器和翻译工具,提升沟通效率。

5、国内首个通过主任医师评测的大模型,已在夸克AI搜索上线

夸克健康大模型成功通过主任医师笔试评测,展现了其在医学领域的强大推理能力,并已集成至AI搜索中。该模型通过构建“慢思考能力”和高质量数据训练体系,提升了复杂医疗问题的处理能力,同时拥有专业医师团队支持,确保了模型输出的专业性和准确性。

【AiBase提要:】

🧠 夸克健康大模型通过主任医师笔试评测,展现医学推理能力。

🔍 构建“慢思考能力”,提升复杂医疗问题的分阶段推导能力。

👩‍⚕️ 拥有千人规模专业医师标注团队,确保模型输出内容的专业性。

6、Hedra Live Avatars震撼发布!每分钟仅0.05美元,视频AI代理开启人机交互新纪元

Hedra Live Avatars的推出标志着AI视频生成技术的重大突破。其以超低成本、超低延迟和高度灵活性为核心优势,为内容创作、教育、客户服务和游戏等领域带来了全新的可能性。

【AiBase提要:】

⚡ 超低成本:每分钟仅0.05美元,大幅降低高质量视频AI代理的准入门槛。

⚡ 超低延迟:低于100毫秒的响应时间,确保实时交互的流畅性和沉浸感。

⚡ 高度灵活:兼容主流大语言模型和文本转语音技术,支持个性化交互体验。

详情链接:https://www.hedra.com

7、谷歌 Gemini2.5革新图像处理:不止识别物体,更能理解抽象概念与关系

谷歌推出的 Gemini2.5AI 模型创新功能“对话式图像分割”,能够通过自然语言提示分析和突出显示图像内容,超越传统图像分割技术,支持关系查询、基于逻辑的指令以及抽象概念的理解。该功能在图像编辑、工作场所安全和保险行业有广泛应用,并为开发者提供了便捷的 API 接口。

【AiBase提要:】

🧠 能够理解并响应更复杂、更具语义的自然语言指令

🌐 支持多语言提示,并可提供其他语言的物体标签

🔧 开发者可通过 Gemini API 直接访问该功能,返回 JSON 格式结果

8、Meta 推出创新模型 AU-Nets,革新文本处理方式

Meta 推出的 AU-Net 模型通过自回归的 U-Net 结构,实现了对文本的灵活处理,能够从原始字节开始学习并动态组合成多层次的序列表示,为大语言模型的发展提供了新的思路。

【AiBase提要:】

🚀 AU-Net 架构通过自回归方式,动态组合字节形成多层次的序列表示。

📊 采用收缩和扩张路径,确保宏观语义信息和局部细节的有效融合。

⏩ 自回归生成机制提高推理效率,确保文本生成的连贯性与准确性。

详情链接:https://github.com/facebookresearch/lingua/tree/main/apps/aunet

9、苹果 AI 团队内部风波:自主研发与开源梦碎,或将求助第三方大模型!

苹果AI团队因开源计划受阻引发内部不满,高级副总裁费德里吉认为市场已有足够开源模型,且苹果模型在设备端性能不足。同时,苹果推迟Siri更新并考虑与第三方大模型合作,凸显其在AI发展上的战略调整。

【AiBase提要:】

🍎 苹果AI团队开源计划被高层否决,担忧模型性能不足。

⚙️ 苹果坚持设备优先策略,限制AI技术发展潜力。

🤖 苹果或转向与OpenAI、谷歌等第三方大模型合作提升Siri功能。

10、一键生成教学动画!Fogsight AI革新教育演示,抽象概念变秒懂动画

Fogsight是一款基于大型语言模型的AI动画引擎,能够将抽象概念转化为直观、易懂的动画。它通过输入关键词或短语,自动生成包含双语旁白和电影级视觉效果的动画短片,适用于课堂教学、在线课程和科普内容创作。

【AiBase提要:

🎥 一键生成:用户输入关键词即可生成30秒至90秒的叙事完整动画。

🎨 视觉与趣味兼得:动画具备电影级视觉效果,提升学习兴趣。

🛠️ 交互式界面:支持多轮对话调整动画内容,满足个性化需求。

详情链接:https://github.com/fogsightai/fogsight

(举报)

AI中国

AI中国

7847 Articles 1206736 Views 950300 Fans

评论 (0)

睡觉动画