欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
新鲜AI产品点击了解:https://top.aibase.com/
1、小米将多枚“Kimi” 商标转让给月之暗面
小米将“Kimi”商标转让给专注于AI助手的月之暗面,此举可能是小米优化资源的战略调整,同时助力月之暗面拓展其智能助手业务。
【AiBase提要:】
🌟 小米将多枚‘Kimi’商标转让给北京月之暗面科技有限公司,优化非核心商标资源。
🤖 月之暗面推出的Kimi智能助手于2023年上线,此次商标转让为其发展提供支持。
🔍 此次交易可能为双方带来更好的市场发展机遇,推动智能助手领域的发展。
2、微软必应推出全新视频创作工具Bing Video Creator,用户可轻松生成 AI 视频
微软必应推出了基于OpenAI Sora模型的Bing视频创作器,用户可通过文本提示免费生成短视频,但目前仅支持移动设备且生成速度较慢。
【AiBase提要:】
✨ 新功能:Bing视频创作器首次免费开放,用户只需简单文字描述即可生成短视频。
📱 限制:目前仅支持移动设备,未在桌面端推出,影响部分用户的使用体验。
💰 激励机制:用户可通过搜索或购物获取积分,免费生成10段视频后需付费继续生成。
3、ElevenLabs推全新语音交互平台Conversational AI2.0:AI语音助手比真人还懂你
ElevenLabs发布了Conversational AI2.0,该平台在对话流畅性、多语言支持和企业级应用能力上实现了重大突破,为客服、营销和内容创作等领域带来全新可能。
【AiBase提要:】
引入先进轮流对话模型,精准捕捉用户对话节奏,避免中断,提升对话流畅性。
支持32+语言无缝切换,内置自动语言检测功能,助力全球化企业客户服务。
集成了RAG技术,从企业知识库提取信息,确保回答专业性和准确性。
详情链接:https://elevenlabs.io/blog/conversational-ai-2-0
4、谷歌 Gemini Live 功能正式登陆 iOS 平台,开启 AI 识别新体验
谷歌的Gemini Live功能已上线iOS和iPadOS平台,支持AI识别场景和屏幕内容,且目前免费使用。该功能通过摄像头和屏幕共享提供便捷的信息获取体验,但目前仅限美国地区用户使用。
【AiBase提要:】
✨Gemini Live现已支持iOS/iPadOS,利用AI快速识别物体并提供信息。
📱屏幕共享功能让用户能轻松分享屏幕内容,增强互动体验。
🌍功能目前仅在美国可用,谷歌正推动AI技术更广泛的应用。
5、Character.AI 推出新功能AvatarFX,用户可制作个性化动画视频
Character.AI 推出了 AvatarFX 工具,允许用户创建自定义动画视频,并新增了 "场景" 和 "流" 功能,同时面临滥用问题。
【AiBase提要:】
🌟 Character.AI 推出 AvatarFX 工具,用户可创建自定义动画视频。
🎬 新增的 "场景" 和 "流" 功能让用户能分享角色创作。
⚠️ Character.AI 因滥用事件受诉讼,平台存在安全隐患。
详情链接:https://blog.character.ai/character-ai-unveils-new-ways-to-create/
6、OpenAI用Rust重新打造Codex CLI,告别Node.js
OpenAI宣布将其AI编程工具Codex CLI从Node.js迁移到Rust语言重写,这一举措带来了性能优化、安全性提升及零依赖安装等优势。
【AiBase提要:】
🌟 Codex CLI由TypeScript和Node.js迁移到Rust,带来性能优化与安全性提升。
🔒 Rust实现零依赖安装,支持沙箱环境运行,增强跨平台兼容性。
🚀 Rust语言特性助力Codex CLI成为模型上下文协议客户端和服务器,性能卓越。
7、NUS 推出 OmniConsistency:低成本实现图像风格化一致性,挑战 GPT-4o!
新加坡国立大学团队发布OmniConsistency项目,通过独特学习框架和模块化架构,在极低成本下实现图像风格化与一致性的完美结合,为开发者提供强大工具。
【AiBase提要:】
✨ 利用配对图像数据学习风格迁移一致性,仅需2600对高质量图像和500小时GPU算力即可达到惊艳效果。
🔄 支持模块化架构,兼容现有风格化LoRA模块,轻松整合进各类项目。
🌟 在开源生态中注入商业级能力,推动AI艺术创作发展。
详情链接:https://github.com/showlab/OmniConsistency
8、Hume AI重磅发布EVI3:懂你情绪的语音AI,比GPT-4o还快!
Hume AI发布了第三代语音交互模型EVI3,具备卓越的情感理解能力和个性化交互体验,标志着语音AI在情感交互和自然沟通领域的重大突破。
【AiBase提要:】
✨ EVI3能精准识别用户语音中的情绪并生成特定风格的声音和个性,实现情感智能与语音交互的完美融合。
🚀 具备超低延迟与智能响应,推理延迟低至300毫秒,情感表达和自然度超越GPT-4o。
🌐 支持多场景应用,包括客户服务、内容创作等,未来还将扩展多语言支持以覆盖全球市场。
详情链接:https://demo.hume.ai/
9、内幕曝光:苹果拥有媲美ChatGPT的1500亿参数AI模型却拒绝发布
苹果将在WWDC上开放基础模型,但性能有限,且其更强大的内部AI模型未有公开计划。领导层分歧导致多项AI项目延期,WWDC更多是营销包装秀。
【AiBase提要:】
🍎 苹果计划开放的AI模型参数仅约30亿,性能偏小且有限,主要支持基础功能。
🚀 苹果内部有更大规模的AI模型,最大达1500亿参数,但仅用于内部测试,未有公开计划。
⏳ 苹果领导层分歧严重,多个AI项目延期,WWDC发布的多为小幅更新而非创新功能。
10、谷歌推出AI Edge Gallery应用,实现离线智能手机AI处理
谷歌推出了AI Edge Gallery应用,允许用户在手机上离线运行复杂的AI模型,增强隐私保护,支持多种AI功能,但安装和使用体验仍有提升空间。
【AiBase提要:】
🌟 谷歌推出AI Edge Gallery应用,支持离线运行AI模型,增强隐私保护。
📱 应用支持Hugging Face模型下载,提供多轮对话、视觉问答等AI功能,所有处理在本地完成。
🔒 本地处理方式解决隐私问题,尤其适合医疗和金融等敏感行业。
详情链接:https://github.com/google-ai-edge/gallery
11、Cerebras 推理 API 全面开放,开发者每日获百万免费 Token
Cerebras Systems宣布其推理API全面开放,取消等待名单限制,并提供每日百万免费Token,显著提升AI推理效率,尤其在实时语音、视频处理等领域表现卓越。
【AiBase提要:】
🚀 推理API开放且每日提供百万免费Token,大幅降低开发者成本。
⚡ 推理速度达GPU的20倍,尤其适用于复杂推理模型及代码生成任务。
🌐 支持主流开源模型,无缝嵌入Hugging Face和Meta平台,简化开发者流程。
12、英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升27.6倍
英伟达联合MIT与香港大学发布Fast-dLLM框架,通过创新机制大幅提升扩散模型推理速度,同时保持生成质量,为AI应用提供强大支持。
【AiBase提要:】
🌟 快速提升:通过块状近似KV缓存机制实现最高27.6倍推理速度提升。
🔍 创新技术:置信度感知并行解码策略确保生成质量,减少依赖冲突。
📊 实测表现:多项基准测试显示速度与准确率的良好平衡,推动扩散模型广泛应用。
详情链接:https://nvlabs.github.io/Fast-dLLM/