引语
奇多多AI学伴机是由无界方舟发布的国内首款基于「端到端实时多模态互动模型」的AI互动机器人,于本月2025外滩大会首次亮相。京东预售仅上线一周,销量便突破了10000台,在看似红海的儿童早教市场掀起波澜。在功能体验方面,它带来了三大突破:能“看”世界的眼睛、堪比真人的低延迟反馈速度、能“成长”的个性化陪伴感。
这场对话中,我们邀请到了奇多多背后的产研驱动者——无界方舟创始人&CEO曾晓东博士和联创&CPO杨冬蕴(小乔),为我们深入解析:奇多多是如何重新定义“AI+教育”产品的,又是如何构建独特技术壁垒的。
曾晓东博士师从国际计算机科学院士Isabel Tracoso,是国内较早一批做机器翻译的研究者。入选《麻省理工科技评论》MIT TR35、全球35位35岁以下科学家榜单(入选者还包括Kimi杨植麟、旷视印奇、快手宿华等AI领域知名创业者及企业家)。曾博士在阿里巴巴、蚂蚁集团累计任职十年,曾担任阿里机器翻译系统核心引擎负责人。他也是蚂蚁集团技术实验室联合创始人,主导了“无人超市”、“刷脸支付”、“IOT硬件”等多个创新产品。2024年,曾晓东博士毅然投身大模型浪潮创业一线,联合蚂蚁、阿里、字节等多位大厂产品及研发同学,创办了AutoArk无界方舟,专注于多模态大模型与AI硬件领域。
CPO小乔毕业于诞生了20名诺贝尔奖得主的英国爱丁堡大学,是国际红点设计奖、IF设计奖得主,并先后于华为、阿里、字节等企业任职,曾担任产品负责人、设计总监、业务负责人,是带领过产品、用研、设计、增长团队的全链路业务人才。所负责项目荣获“哈佛商业评论-中国新增长数字化革新榜”、“2020年度环球金趋势奖年度赋能创新奖”。在外滩大会、云栖大会、PCon全球产品创新大会等行业会议中担任演讲嘉宾,申请专利20+项。
01 深度揭秘——奇多多做对了什么?
小乔在奇多多新品发布会上说道:“AI陪伴只是玩具,满足功能才是AI早教。‘AI陪伴’是目前的行业风口,但想要做好AI陪伴,并非接入AI语音模型就能做好,还需要有丰富的情绪、记忆体系、低延迟反馈、开放式无按压交互、对儿童话术的精准识别等。我们在做到‘AI陪伴’的基础上,更注重解决早教刚需痛点问题,尊重0-3岁、3-6岁、6-10岁孩子的身心发展规律,做到科学早教。”
ZP:预售破万,奇多多究竟做对了什么?它的突破主要体现在哪些方面?
小乔:首先非常感谢广大用户对奇多多的喜爱和认可。奇多多的突破主要在于两方面:一方面是回归第一性原理,对早教产品功能做深度挖掘;另一方面是我们自研的EVA实时多模态互动模型,能真正满足产品需求。
从国内几个主流电商平台的退货率数据可知,早教产品退货率高达30%-70%。其中退货率偏低的是故事机、熏听机这类产品,AI类产品的退货率是非常高的。所以早教硬件看似是红海赛道,实际产品力上并没有满足家长和宝贝们的需求。我自己身为一名宝妈,从孩子出生到进入小学,让我满意的早教产品其实并不多。
我们通过对国内外权威早教机构的专家访谈、对一二线宝爸妈用户做深度调研、结合行业数据报告做交叉验证,综合得出了奇多多的产品定位和差异化竞争力。
我们再看技术方面,我们的模型在体验层面有两大优势:一是有视觉能力,符合孩子边看、边问、边学的习惯;二是能做到毫秒级反馈,即使受到硬件性能的限制,也能优化到秒级。很多AI语音产品采用按压式交互,反馈在6秒以上,孩子是无法沉浸使用的。0-10岁儿童的注意力持续时间仅为10-30分钟,超过1秒的响应延迟就会中断注意力,而缺乏视觉理解的实时互动则会切断 “从看到学” 的核心链路。
ZP:通用AI模型在面向儿童早教赛道时,主要存在哪些瓶颈?针对这些问题,奇多多背后的模型是如何实现突破的?
曾博士:常见的「语音AI+CV视觉模型」在真实幼龄场景中会有四重失效,具体表现为,常见的儿童语音识别错误率高达 52%、对任意书籍的识别准确率不足35%、对常见物品误识率超40% 、复杂概念解释远超认知水平。
EVA 通过 “模态中枢 + 成长型认知引擎” 架构实现突破,从 “成人适配” 到 “儿童友好”,其中视觉能力为核心支撑:
- 打通视觉理解【眼】:儿童“边看边问” 是核心交互习惯,除AI语音外,奇多多更有视觉识别能力,并带给孩子知识科普拓展。书籍、日常物品、涂鸦作品、学校发的奖状奖品等,这些孩子喜欢展示和提问的物件,奇多多均可识别。除AI视觉识物和科普外,奇多多还有强大的阅读能力,支持不同字体、多语言、全类型读物的识别。宝贝家里的绘本、考卷、课本、期刊、卡片全能识别和阅读,并提供3种阅读模式:朗读、翻译、指读,有效替代点读笔、词典笔等产品;
- 革新延迟标准【快】:语音交互延迟≤250ms(匹配快速注意力转移特性),视频交互延迟≤400ms,书籍识别 / 实物识别延迟≤300ms(采用边缘端视觉特征加速算法,支持即时反馈)。即使受限于硬件设备性能,也可以控制在秒级响应;
- 情感与成长体系【伴】:具备48种情绪计算体系,100+种眼神表情互动,可克隆父母的音色与孩子对话。更有个性化记忆引擎带来AI成长体验,使每个孩子都有专属于自己的奇多多。
02 痛点与机遇——奇多多是如何直击早教未被满足的刚性需求的?
ZP: 无界方舟第一款硬件产品为什么会选择早教硬件这个看似传统的赛道?
小乔:我们选择赛道的逻辑,是综合分析“市场规模+公司壁垒+行业趋势”三个方面。我在2023年底,做了AI硬件市场规模的战略地图,其中AI陪伴机器人是个天花板足够高的盘子。在2024年中,我们公司身为一家模型厂商,坚定地自研了实时多模态互动模型,技术上已显露出优势。因此在既能体现模型能力壁垒,又满足市场规模要求的思路下,我们选择了AI早教产品作为第一款自研硬件,PMF足够明确。
其实早教产品的容错率,比起女性陪伴产品来说,会苛刻非常多,对模型的要求会更高,但我们认为门槛高的产品,更能发挥我们的技术优势,也能建立护城河。
ZP: 奇多多与其他AI早教硬件相比,有哪些差异化优势?
小乔:在产品功能定义上,我们深度调研了能满足孩子0-3岁、3-6岁、6-10岁身心发展的早教重点,针对性做了强化设计。尤其为满足孩子“边看边问边学”、“有人陪伴阅读”的需求,推出“AI识物科普”和“AI所有书都能读”的功能。
我们与30多家国内外权威教育机构、36位资深的早教专家,做了深入的交流合作。我们把0-10岁这个阶段,家长最需要关注的教育重点,总结为3个分龄阶段:
- 0-3岁的幼童,大脑神经元突触迅猛发展,需要提供大量熏听内容。奇多多除了百万熏听资源外,家长还可以在APP上联动百度网盘下载、进行AI故事生成,将熏听资源无限化;
- 3-6岁的小童,处于语言爆发期,是培养语言表达能力的黄金期,也需养成良好的阅读习惯,拓展认知水平。并且该阶段的性格养成,决定了孩子一生的社会交往情商能力,孩子的每一句问话都需要情绪匹配、三观端正的及时回答,避免出现社交回应缺失现象;
- 6-10岁的大童,开始接触文化课,兴趣探索要比课业学习更为重要。在该阶段需要进一步做好语言的阅读学习与互动表达,因为10岁之后,语言中枢(Broca"s Area)将会逐渐关闭。
我们前前后后深度访谈了200多个一二线城市的家庭,我们发现父母的痛点集中在早教开销大、有效陪伴孩子时间不足、老人带娃无法有效指导这几个问题上,我国老人带娃比例高达70%。
市面上的早教产品,痛点在于同质化产品多,每个功能都得买单独的产品,几十个早教产品都在家里落灰;针对3-10岁的孩子,传统AI语音类产品因为6秒以上的高延迟、需按压才能对话等交互问题,导致孩子无法有效沟通,更难以培养语言能力;并且,业界没有产品可以满足阅读需求,现有产品仅识别提前录入好的绘本,无法阅读用户家里的所有书本和学习资料。针对6岁以上的孩子,其实缺乏的并不是学习资料,学校的资料已经足够充分,陪同孩子将已有学习资料反复练习、给出回答引导,才是更重要的事。
针对这些洞察发现,我们认为,需要打破每个功能都得单买一个早教产品的行业局面和用户痛点,将产品定位到孩子0-3岁、3-6岁、6-10岁发展阶段真正需要的功能集合上。给足0-3岁孩子充分的熏听资源与点播方式,满足3-6岁孩子的语言互动和阅读需求,适配6岁以上孩子与课本内容相结合的诉求。同时,奇多多强调父母和子女的关系,提供详细的成长分析报告、远程亲子通话功能。
与业内已有早教产品相比,我们的差异化优势主要体现在“质价比”方面。“质”体现在回归第一性原理,将0-10岁孩子的早教刚需,以更为科学的教育方式分龄覆盖,宝爸宝妈不再需要为每个小功能单独买产品,导致家里堆积大量同质化早教产品。“价”体现在价格优势上,尤其是和其他AI类产品相比。因为我们本身就是模型厂商,自研模型不仅能带来更好的体验,更是将成本降低了95%,未来也不会向用户收取AI会员费,我们是为用户提供终身免费使用AI的权益的。
03 技术与感知——奇多多背后的“超级感官”与“真大脑”是如何实现的?
ZP:奇多多“看得懂万物、读得懂所有书”,背后的“超级感官”是如何构建的?它是怎样克服传统 AI 在儿童场景中的识别难题的?
曾博士:首先我们需要的是一个极强的实时多模态大模型来赋予硬件“真人般的交互”,多模态模型因其能够融合文本、图像、音频等多种信息形态,提供更智能、拟人化的交互,而成为重要研究方向。我们从去年年初就着重布局这个方向,在业界没有任何现成开源方案的情况下,率先在去年8月份推出了国内SOTA的EVA端到端多模态模型,率先解决了多模态商业化致命瓶颈,为AI应用赋予了 “超级感官” 与 “真大脑”,填补了走向商用落地的最后一公里。
在此基础上,我们将 EVA 为奇多多做了儿童早教场景的深度模型适配。最特别的是看懂“万物与书籍” 的视觉魔法 ——AI识物科普与AI所有书全能读。
早教场景视觉识别面临四大核心挑战,包括非标准书籍(多样排版、手写字体等)、实物形态多变、复杂环境干扰以及儿童非标准书写和涂鸦。普通AI识别准确率低于30%,实物混淆率超45%,难以满足儿童学习需求。
EVA针对早教场景进行了全面的场景化视觉能力优化。其“书籍全域识别引擎”支持所有类别书籍甚至手写本,通过字体扩展、排版分析和印刷增强实现96%的准确率,并可同步语音朗读与科普互动。在实物识别方面,采用小样本学习技术,仅需3-5个样本即可识别新实物,结合多模态科普和抗干扰优化,在复杂环境下仍保持93%以上准确率。针对儿童手写和涂鸦,EVA通过专用训练数据集和模型优化,实现94%的作业识别准确率,并能对非标准书写保持鲁棒性,还可将涂鸦关联科普内容激发创作兴趣。
ZP:奇多多在AI识物科普时,讲得很有意思,这是如何做到的?
小乔:我们主要让模型深度融合了早教领域的知识图谱,并针对0-10岁儿童的认知特点进行了优化。传统的“百科全书式”解释容易导致儿童认知负荷超载,而过度简化又会损失知识准确性。奇多多通过构建覆盖0-10岁的阶梯式知识网络,包含了百万个核心知识点及丰富的关联关系,并采用拟人化和类比式的解释方法,传达给宝贝们。
例如,在解释“光合作用”时,它可能会引入“叶绿素工人”这样的拟人化角色;在说明“蒸发”现象时,会将其生动地解释为“水变成隐形小水珠飞到天上”;而在解释“电流”时,则会将其类比为“水流通过水管”这样更具体的生活实例。这种从海量教学案例中学习生成的、符合儿童认知习惯的类比方式,测试显示能有效提升儿童对概念的记忆保持率。
ZP:奇多多是如何做到像人类伙伴一样“越聊越懂你”的?
小乔:AI陪伴类产品,只有做好个性化成长时,才能提升使用时长和活跃度。奇多多是带有成长属性的AI产品,会随着用户的使用,个性化适配用户,记得用户的重要事件,让每个孩子拥有属于自己的奇多多。其背后的关键是“存储型记忆 + 参数化记忆”的技术结合,为宝贝们打造专属的 “记忆引擎”。
这主要依靠三个模块协同工作:认知记忆模块会追踪孩子的知识轨迹,并构建认知标签(例如从“20以内加减法”进阶到“进位加法”),从而避免“学新忘旧”,当系统识别到某些知识的稳固度低于阈值时,会自动触发复习机制; 情感记忆模块则本地化存储孩子的个人偏好(如喜爱的恐龙类型、生日日期等),这些信息均经过AES加密以确保隐私安全,家长有权查看和删除,在互动中奇多多会自然地运用这些信息,比如主动说“你喜欢的霸王龙故事来啦”; 交互记忆模块会依据艾宾浩斯遗忘曲线动态调整记忆内容的优先级,对于核心知识(如安全规则)设置较低的衰减率以强化记忆,而对临时兴趣则允许较快衰减,从而有效避免记忆冗余,确保AI的回应始终聚焦于对孩子真正重要的内容。
ZP:个性化意味着AI需要记忆用户偏好和成长轨迹。这不可避免地会涉及隐私安全问题。奇多多的“成长记忆”功能如何打消家长对于数据隐私的顾虑?
曾博士:这是我们极其重视的关键问题。我们通过多层技术保障、完善的家长控制功能、透明的数据承诺以及合规的设计,全面消除家长对数据隐私的顾虑。核心措施包括严格遵循数据最小化原则,并对敏感信息进行匿名化处理。所有数据在传输和存储过程中均采用端到端加密,确保安全性。家长享有完全的控制权,可随时查看、编辑或删除记忆内容,甚至关闭相关功能。产品提供清晰易懂的隐私政策,并严格依据《个人信息保护法》等法规开展数据处理。
此外,我们创新性地研发PrivateLoRA技术,进一步加强儿童信息的安全与隐私保护。EVA基于PrivateLoRA构建了一套隐私优先的大模型架构,其核心思路是将涉及用户隐私的计算任务本地化——迁移至个人终端设备执行。该技术借助低秩适配(LoRA)方法,在微调大模型时仅训练和更新少量参数,无需原始数据上传至云端,既降低了数据传输中的泄露风险,也利用本地算力实现深度个性化处理,使模型更贴合用户需求而不泄露隐私。该技术的早期团队已向技术社区开源(https://wanglamao.github.io/),为推动隐私保护大模型的发展贡献力量。
04 开放生态——不止于早教机,让每个硬件都拥有 “视觉智慧大脑”
ZP:EVA OS具体开放了哪些能力?普通厂商如何快速接入,又能实现怎样的产品升级?
曾博士:简单来说,EVA OS将奇多多最核心的“眼睛”和“大脑”做成了一个标准化、可插拔的软硬件一体能力包,任何想做智能硬件的公司,无需从头研发AI,直接使用我们的研发套件即可。我们主要开放四类能力:
- 多模态交互API:提供“书籍识别、实物识别、涂鸦解析”等视觉能力,玩具厂商接入后,普通毛绒玩具可升级为“能读绘本、认实物”的智能伙伴。
- 知识与视觉接口:允许内容合作伙伴扩展视觉知识库。例如,出版社可将自有书籍关联EVA识别系统,使纸质书获得“互动朗读 + 插图科普”能力;实物科普平台可接入识物库,扩展动植物、天文等垂直领域类别。
- 硬件适配SDK:体积控制优异,集成视觉识别优化模块(如摄像头参数调校、光线自适应算法),支持学习台灯、点读笔、儿童平板等设备快速获得“AI 读书 + 识物”能力,并提供“低功耗视觉处理”方案以满足硬件续航需求。
- 广泛的硬件兼容性:支持市场上绝大多数主流硬件开发板,使平台可以灵活扩展,满足工程师对各种物联网应用进行评估、实验、创新及科研的要求
首批合作伙伴已取得显著成效:某知名儿童出版社接入EVA书籍识别能力后,其小众科普书的用户阅读时长提升3.5倍;户外玩具厂商通过实物识别API,使望远镜产品增加 “识别花草/鸟类” 的科普功能(可根据客户需求调参),销量增长 52%。
未来,EVA OS致力于打造一个开放、协同的生态。 我们不仅提供技术接口,更通过开发者社区、详尽的文档和技术支持,持续赋能合作伙伴,共同推动多模态AI在智能硬件领域的创新与应用。其低代码开发环境和快速概念验证能力能显著缩短客户的开发周期,帮助各类设备更快地具备智能视觉交互功能,携手创造下一代智能体验。
最后,奇多多AI学伴正在云栖大会参展。欢迎大家来奇多多展台(3号馆 · 前沿应用馆3-16I),感受来自无界方舟的“育儿黑科技”。
文章来自于微信公众号 “Z Potentials”,作者 “Z Potentials”