AI热点 3 months ago 241 Views 11 Comments

AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线;Runway发布图像一致性参考功能

Published 7995 Articles

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升

英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用,提升了转录效率,能够在一秒内完成60分钟音频的转录,且其词错误率接近市场领先水平。通过支持多种开发环境及优化多款GPU硬件,该模型为开发者提供了强大的工具,助力多样化的语音应用场景。

【AiBase提要:】

⚡ 超强转录能力:该模型能在一秒内完成60分钟音频的转录,显著提高语音处理速度。

📊 技术参数:拥有6亿个参数,结合FastConformer编码器和TDT解码器,词错误率仅为6.05%。

🌍 广泛应用场景:支持多种应用,包括转录服务、语音助手等,兼容Python和PyTorch等开发环境。

详情链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

2、Suno v4.5正式上线,仅限付费用户使用,生成歌曲延长至8分钟

Suno音乐生成平台推出了其最新模型v4.5,专为Pro和Premier付费用户设计,显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格,增强了声线表现和音效层次,同时延长了歌曲生成时长至8分钟。尽管部分用户对付费限制表示遗憾,但也有人认为这一创新值得订阅。

【AiBase提要:】

🎵 v4.5支持更广泛的音乐风格,具备智能混搭能力,提升创作自由度。

🎤 声线表现更为饱满,情感表达精准,音域和情感深度显著提升。

⏳ 歌曲生成时长从4分钟扩展至8分钟,用户可创作更长的音乐作品。

3、Runway发布图像一致性参考功能 Gen-4References 支持提取人物、场景或风格特征及多图混合

Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力,使创作者能够通过上传参考图像来提取人物、场景或风格特征,从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成,为视频创作提供了更大的控制力与创意自由,极大地简化了设计流程,推动了AI在影视制作领域的应用。

【AiBase提要:】

🖼️ Gen-4References允许用户上传多张参考图像,确保生成内容在不同场景中的一致性。

🎨 该功能支持从电影制作到广告设计等多种创作场景,提升了视觉连贯性。

🚀 Runway计划进一步增强该功能,推动AI视频生成技术的成熟与应用。

4、Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活

Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制,支持多种对象生成和灵活的权重调整,从而提升创作的自由度和一致性。此功能不仅适用于艺术创作,还能在游戏开发、广告设计等多个领域发挥重要作用,展示出广泛的应用潜力。

【AiBase提要:】

🎨 Omni-Reference功能提供精准的图像元素控制,用户可上传参考图像以生成高度匹配的结果。

🧩 支持多种对象生成,用户可以在单张图像中包含多个对象,适合复杂场景的创作。

⚙️ 通过动态权重调整,用户可控制参考图像的影响强度,确保细节的一致性与风格的灵活性。

5、Claude AI将升级:网页版酝酿支持MCP定制链接

近日,科技媒体TestingCatalog报道,Anthropic旗下的Claude网页应用将通过引入Model Context Protocol(MCP)进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制,预计将为用户提供更灵活的使用体验。MCP作为一种开放标准,将简化大型语言模型与外部数据源和工具之间的通信,提升AI助手的集成能力。

【AiBase提要:】

🌟 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。

🔗 MCP标准如同“USB-C接口”,将简化AI与外部工具的连接方式。

🚀 用户可通过网页直接访问第三方工具,提升工作效率,降低本地部署需求。

6、iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持

苹果AI将在iOS18.6系统中首次启用部分功能,背后有阿里巴巴和百度的技术支持。由于政策限制,海外大模型无法在中国提供服务,百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时,为确保内容合规,苹果引入阿里巴巴的审查机制。

【AiBase提要:】

🛠️ 苹果AI将在iOS18.6中首次启用,背后有阿里和百度的技术支持。

📜 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。

🔍 阿里巴巴将提供审查机制,确保AI生成内容符合国内法规要求。

7、OpenAI 重返非营利模式,终止营利性实体控制机制

OpenAI 宣布重返非营利模式,结束营利性实体的控制,重组为公益公司。这一变动回应了外界对其商业化的担忧,尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明,同时允许继续吸引风险投资。OpenAI 计划利用这一模式成为全球最大的慈善实体之一,预计2024年营收将突破20亿美元。

【AiBase提要:】

🌟 OpenAI 宣布重返非营利模式,终止营利性实体控制机制。

🤝 新设公益公司仍在非营利组织监督下,目标成为全球最大慈善实体之一。

💡 调整后的架构将确保社会效益指标的透明度,同时保持商业运作空间。

8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型

Freepik最近推出了其文本到图像生成模型“F Lite”,旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练,拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色,但在生成照片级逼真图像时仍存在不足。

【AiBase提要:】

🛡️ F Lite是Freepik推出的文本到图像生成模型,旨在提供版权安全的替代方案。

💻 该模型基于Freepik自有图像库训练,拥有约100亿个参数,强调合法审查数据的重要性。

📊 尽管在插图生成方面表现优异,但F Lite在生成照片级图像时仍面临细节缺失等挑战。

9、OpenAI同意以30亿美元收购AI编码助Windsurf

OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf,此交易是其迄今为止最大的一笔收购,显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇,此次收购可能会引发行业内的广泛讨论,尤其是在OpenAI与其他AI编码助手之间的竞争关系上。

【AiBase提要:】

🌟 OpenAI以约30亿美元收购人工智能编码助手Windsurf,标志着其最大收购案。

🔍 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。

⚖️ OpenAI缩减转型计划,面临法律挑战和外界批评。

10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能

谷歌的Gemini聊天机器人最近进行了重要的更新,新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放,允许在网页端同时上传多张图片,并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放,但它们为用户提供了更大的创作灵活性,提升了整体用户体验。

【AiBase提要:】

🖼️ 新增多图上传功能,部分用户已可同时上传多张图片。

✏️ 引入AI图像编辑功能,用户可更改背景和替换物体。

🔒 用户需遵循谷歌使用条款,确保合规性。

11、ChatGPT 访问量激增,4月总计达47.86亿次、首次超越 X

根据Similarweb发布的2025年4月网站流量报告,ChatGPT的访问量达到了47.86亿次,首次超过社交媒体平台X的40.28亿次,显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次,反映出其作为生产力工具的广泛应用。

【AiBase提要:】

📈 ChatGPT在2025年4月的访问量达47.86亿次,首次超过社交媒体平台X的40.28亿次。

💼 工作日访问量接近2亿次,表明ChatGPT作为生产力工具的广泛应用。

🌍 ChatGPT的用户基础在全球范围内持续扩大,尤其是在移动端的强劲增长。

12、Excel MCP Server上线 可通过Claude等客户端直接操作Excel文件

Excel MCP Server是一款开源工具,基于模型上下文协议(MCP)开发,允许用户通过AI助手直接操作Excel文件,无需安装微软Excel软件。该工具功能强大,支持创建、读取、修改Excel数据,生成图表和透视表,极大地方便了用户的表格处理工作。

【AiBase提要:】

🛠️ Excel MCP Server允许用户通过AI助手直接操作Excel,无需安装微软Excel软件。

📈 该工具支持创建、读取、修改Excel数据,生成图表和透视表,功能全面。

🌐 作为开源项目,Excel MCP Server促进了社区开发,支持多种AI客户端的无缝集成。

详情链接:https://top.aibase.com/tool/excel-mcp-server

13、Claude 移动应用即将推出语音模式,支持多种声音选项

Claude 移动应用即将进行重要升级,推出备受期待的语音模式功能。该模式采用推按式对话,支持多种声音选项,并具备网页搜索能力,搜索结果以要点形式呈现,便于用户理解和跟进。此外,用户可以上传文件作为上下文参考,提升了交互体验。

【AiBase提要:】

📢 Claude 移动应用即将上线语音模式,采用推按式对话并支持多种声音选项。

🔍 语音模式支持网页搜索,输出结果以要点形式呈现,用户可方便浏览。

📁 该功能还支持文件上传,让用户可以在对话中使用图片或文档作为上下文参考。

14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题

KeySync是一款创新的唇形同步工具,成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准,适用于影视制作、动画、虚拟主播等多个领域。KeySync不仅支持高分辨率视频处理,还能自动生成与音频匹配的唇部动画,大幅提升工作效率。

【AiBase提要:】

🎥 KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题,提升了唇形同步的精准性和自然度。

💻 该工具支持高分辨率视频处理,优化了时间连贯性,确保唇部动作流畅自然,避免了传统工具的常见问题。

🌍 KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇,提升了多语言视频的质量和制作效率。

详情链接:https://github.com/antonibigata/keysync

(举报)

7995 Articles 1244368 Views 950300 Fans

Comment (11)

User avatar

AI更新速度真快,苹果、Suno、Runway,厉害!

User avatar

希望AI能给我们的生活带来更多惊喜,但也得小心点,这东西有点不可预测!

User avatar

这波更新,苹果真敢玩,大家都不怕被时代淘汰啊!

User avatar

感觉AI更新的速度,跟我们人类的进化速度比起来,简直是火箭发射!

User avatar

Runway,这个生成图像的,感觉有点酷炫,未来艺术的可能!

User avatar

苹果这次的出手,直接把AI的竞争都搅黄了!

User avatar

Suno,这个真不错,感觉有点像未来的聊天伙伴!

User avatar

厉害厉害,科技进步的速度真的让人有点... 眩晕!

User avatar

更新太快了,我感觉我还没缓过一口气,他们又换了新玩具了!

User avatar

苹果、Suno、Runway,这几个都挺有意思的,感觉未来要被他们搞定!

睡觉动画