
AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线;Runway发布图像一致性参考功能
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升
英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用,提升了转录效率,能够在一秒内完成60分钟音频的转录,且其词错误率接近市场领先水平。通过支持多种开发环境及优化多款GPU硬件,该模型为开发者提供了强大的工具,助力多样化的语音应用场景。
【AiBase提要:】
⚡ 超强转录能力:该模型能在一秒内完成60分钟音频的转录,显著提高语音处理速度。
📊 技术参数:拥有6亿个参数,结合FastConformer编码器和TDT解码器,词错误率仅为6.05%。
🌍 广泛应用场景:支持多种应用,包括转录服务、语音助手等,兼容Python和PyTorch等开发环境。
详情链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2
2、Suno v4.5正式上线,仅限付费用户使用,生成歌曲延长至8分钟
Suno音乐生成平台推出了其最新模型v4.5,专为Pro和Premier付费用户设计,显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格,增强了声线表现和音效层次,同时延长了歌曲生成时长至8分钟。尽管部分用户对付费限制表示遗憾,但也有人认为这一创新值得订阅。
【AiBase提要:】
🎵 v4.5支持更广泛的音乐风格,具备智能混搭能力,提升创作自由度。
🎤 声线表现更为饱满,情感表达精准,音域和情感深度显著提升。
⏳ 歌曲生成时长从4分钟扩展至8分钟,用户可创作更长的音乐作品。
3、Runway发布图像一致性参考功能 Gen-4References 支持提取人物、场景或风格特征及多图混合
Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力,使创作者能够通过上传参考图像来提取人物、场景或风格特征,从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成,为视频创作提供了更大的控制力与创意自由,极大地简化了设计流程,推动了AI在影视制作领域的应用。
【AiBase提要:】
🖼️ Gen-4References允许用户上传多张参考图像,确保生成内容在不同场景中的一致性。
🎨 该功能支持从电影制作到广告设计等多种创作场景,提升了视觉连贯性。
🚀 Runway计划进一步增强该功能,推动AI视频生成技术的成熟与应用。
4、Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活
Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制,支持多种对象生成和灵活的权重调整,从而提升创作的自由度和一致性。此功能不仅适用于艺术创作,还能在游戏开发、广告设计等多个领域发挥重要作用,展示出广泛的应用潜力。
【AiBase提要:】
🎨 Omni-Reference功能提供精准的图像元素控制,用户可上传参考图像以生成高度匹配的结果。
🧩 支持多种对象生成,用户可以在单张图像中包含多个对象,适合复杂场景的创作。
⚙️ 通过动态权重调整,用户可控制参考图像的影响强度,确保细节的一致性与风格的灵活性。
5、Claude AI将升级:网页版酝酿支持MCP定制链接
近日,科技媒体TestingCatalog报道,Anthropic旗下的Claude网页应用将通过引入Model Context Protocol(MCP)进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制,预计将为用户提供更灵活的使用体验。MCP作为一种开放标准,将简化大型语言模型与外部数据源和工具之间的通信,提升AI助手的集成能力。
【AiBase提要:】
🌟 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。
🔗 MCP标准如同“USB-C接口”,将简化AI与外部工具的连接方式。
🚀 用户可通过网页直接访问第三方工具,提升工作效率,降低本地部署需求。
6、iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持
苹果AI将在iOS18.6系统中首次启用部分功能,背后有阿里巴巴和百度的技术支持。由于政策限制,海外大模型无法在中国提供服务,百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时,为确保内容合规,苹果引入阿里巴巴的审查机制。
【AiBase提要:】
🛠️ 苹果AI将在iOS18.6中首次启用,背后有阿里和百度的技术支持。
📜 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。
🔍 阿里巴巴将提供审查机制,确保AI生成内容符合国内法规要求。
7、OpenAI 重返非营利模式,终止营利性实体控制机制
OpenAI 宣布重返非营利模式,结束营利性实体的控制,重组为公益公司。这一变动回应了外界对其商业化的担忧,尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明,同时允许继续吸引风险投资。OpenAI 计划利用这一模式成为全球最大的慈善实体之一,预计2024年营收将突破20亿美元。
【AiBase提要:】
🌟 OpenAI 宣布重返非营利模式,终止营利性实体控制机制。
🤝 新设公益公司仍在非营利组织监督下,目标成为全球最大慈善实体之一。
💡 调整后的架构将确保社会效益指标的透明度,同时保持商业运作空间。
8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型
Freepik最近推出了其文本到图像生成模型“F Lite”,旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练,拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色,但在生成照片级逼真图像时仍存在不足。
【AiBase提要:】
🛡️ F Lite是Freepik推出的文本到图像生成模型,旨在提供版权安全的替代方案。
💻 该模型基于Freepik自有图像库训练,拥有约100亿个参数,强调合法审查数据的重要性。
📊 尽管在插图生成方面表现优异,但F Lite在生成照片级图像时仍面临细节缺失等挑战。
9、OpenAI同意以30亿美元收购AI编码助Windsurf
OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf,此交易是其迄今为止最大的一笔收购,显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇,此次收购可能会引发行业内的广泛讨论,尤其是在OpenAI与其他AI编码助手之间的竞争关系上。
【AiBase提要:】
🌟 OpenAI以约30亿美元收购人工智能编码助手Windsurf,标志着其最大收购案。
🔍 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。
⚖️ OpenAI缩减转型计划,面临法律挑战和外界批评。
10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能
谷歌的Gemini聊天机器人最近进行了重要的更新,新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放,允许在网页端同时上传多张图片,并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放,但它们为用户提供了更大的创作灵活性,提升了整体用户体验。
【AiBase提要:】
🖼️ 新增多图上传功能,部分用户已可同时上传多张图片。
✏️ 引入AI图像编辑功能,用户可更改背景和替换物体。
🔒 用户需遵循谷歌使用条款,确保合规性。
11、ChatGPT 访问量激增,4月总计达47.86亿次、首次超越 X
根据Similarweb发布的2025年4月网站流量报告,ChatGPT的访问量达到了47.86亿次,首次超过社交媒体平台X的40.28亿次,显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次,反映出其作为生产力工具的广泛应用。
【AiBase提要:】
📈 ChatGPT在2025年4月的访问量达47.86亿次,首次超过社交媒体平台X的40.28亿次。
💼 工作日访问量接近2亿次,表明ChatGPT作为生产力工具的广泛应用。
🌍 ChatGPT的用户基础在全球范围内持续扩大,尤其是在移动端的强劲增长。
12、Excel MCP Server上线 可通过Claude等客户端直接操作Excel文件
Excel MCP Server是一款开源工具,基于模型上下文协议(MCP)开发,允许用户通过AI助手直接操作Excel文件,无需安装微软Excel软件。该工具功能强大,支持创建、读取、修改Excel数据,生成图表和透视表,极大地方便了用户的表格处理工作。
【AiBase提要:】
🛠️ Excel MCP Server允许用户通过AI助手直接操作Excel,无需安装微软Excel软件。
📈 该工具支持创建、读取、修改Excel数据,生成图表和透视表,功能全面。
🌐 作为开源项目,Excel MCP Server促进了社区开发,支持多种AI客户端的无缝集成。
详情链接:https://top.aibase.com/tool/excel-mcp-server
13、Claude 移动应用即将推出语音模式,支持多种声音选项
Claude 移动应用即将进行重要升级,推出备受期待的语音模式功能。该模式采用推按式对话,支持多种声音选项,并具备网页搜索能力,搜索结果以要点形式呈现,便于用户理解和跟进。此外,用户可以上传文件作为上下文参考,提升了交互体验。
【AiBase提要:】
📢 Claude 移动应用即将上线语音模式,采用推按式对话并支持多种声音选项。
🔍 语音模式支持网页搜索,输出结果以要点形式呈现,用户可方便浏览。
📁 该功能还支持文件上传,让用户可以在对话中使用图片或文档作为上下文参考。
14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题
KeySync是一款创新的唇形同步工具,成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准,适用于影视制作、动画、虚拟主播等多个领域。KeySync不仅支持高分辨率视频处理,还能自动生成与音频匹配的唇部动画,大幅提升工作效率。
【AiBase提要:】
🎥 KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题,提升了唇形同步的精准性和自然度。
💻 该工具支持高分辨率视频处理,优化了时间连贯性,确保唇部动作流畅自然,避免了传统工具的常见问题。
🌍 KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇,提升了多语言视频的质量和制作效率。
详情链接:https://github.com/antonibigata/keysync
(举报)
发表评论 取消回复