双胞胎兄弟创业，融资2400万美金，打造视频AI agent必备的基础设施

你有没有想过，那些电视台、制作公司里堆积如山的视频素材，可能马上就要被彻底重新定义了？想象一下，从数千小时的视频内容中找到你需要的那一个镜头，不再需要安排一群人没日没夜地看片子、做标记，而是只需要简单描述一句"奥巴马谈论人权的片段"，系统就能立刻定位到精确的时间点，并提供详细的场景描述、人物信息和镜头分析。这不是科幻电影的情节，而是刚刚获得2400万美元融资的Moments Lab正在变为现实的技术革命。

我一直在思考一个问题：为什么在这个AI时代，视频内容的管理和发现还停留在如此原始的阶段？媒体行业每天产生的视频内容以TB计算，但大部分内容在制作完成后就沉睡在存储系统中，再也没有被有效利用过。这种资源浪费不仅是成本问题，更是错失了无数创意和商业机会。而Moments Lab的出现，让我看到了这个问题的根本性解决方案。他们刚刚完成的这轮由Oxx领投、Orange Ventures、Kadmos Capital及原有投资者Elaia和Supernova参与的融资，标志着视频AI技术正在从实验室走向大规模商业应用的关键节点。

从数据来看，Moments Lab在过去12个月里经常性收入翻了一番，并且正朝着2025年的指数级增长轨道前进，最近签约的客户包括Thomson Reuters、Sinclair、Hearst、Amazon Ads和Banijay等行业巨头。

传统视频管理的困境与痛点

让我先聊聊传统视频制作行业面临的现实困境。如果你曾经参与过任何大型视频项目的制作，你就会知道寻找特定镜头有多痛苦。传统模式下，制作团队需要安排专门的人员观看大量素材，手动标记关键时刻，比如标注"打斗"、"搞笑"或"感人"等标签。以真人秀《Love Island》为例，这档24小时不间断拍摄的节目需要庞大的团队来审查所有素材，手动标记如"接吻"、"争吵"、"比基尼"或"太阳镜"等场景。这种工作不仅枯燥乏味，更重要的是，当这些素材进入后期制作阶段时，很多标签会丢失，编辑们往往需要重新开始，在数小时的视频中寻找特定场景，如果最终能找到的话。

这种低效率在当今多平台内容分发的时代显得尤为突出。同一份素材不再只是编辑一次发布到一个地方就结束了，而是需要被重新包装用于YouTube、TikTok、Instagram和其他平台，每个平台都有自己的格式、长度和受众要求。这意味着团队需要频繁快速地提取关键场景。寻找合适的时刻比以往任何时候都更重要，因为同样的素材不再只存在于一个地方，而是被重复使用并重新包装到各种平台上。我经常听到制作人抱怨，他们花在寻找素材上的时间比实际创作的时间还要多，这不仅降低了创作效率，也极大地限制了创意的发挥。

更糟糕的是，现有的AI视频索引工具虽然承诺能自动化这个过程，但它们通常只能识别面孔、物体并提供转录文本，却没有上下文理解能力。它们简单地用无关的元数据充斥媒体资产管理和数字资产管理系统，让搜索结果变得混乱，反而创造了比原本要解决的问题更多的新问题。我见过很多制作公司投资了昂贵的AI工具，但最终还是回到了人工查找的老路上，因为AI给出的标签太过浅层和无用。这就是为什么Moments Lab在2023年底推出MXT时如此引人注目——它是一个真正理解和描述视频时刻的AI，就像人类一样。

Moments Lab的核心产品：MXT多模态AI引擎

Moments Lab的MXT技术革新彻底改变了这种状况。MXT能够像人类编辑一样理解视频内容，但以机器的速度工作，同时提供详细的、带时间码的元数据和无与伦比的语义精度。它将视频分解成有意义的场景，识别其中的人物、正在发生的事情、发生的地点，甚至使用的镜头类型。它还可以从采访、演讲或新闻发布会中提取最佳的精彩片段，让用户不必浪费时间在素材中反复搜寻。当你输入"奥巴马谈论人权"这样的搜索词时，系统会立即返回准确的场景，并提供摘要、镜头描述、出现的人物等详细信息。

我特别关注MXT技术的语义搜索能力，这类似于你在Google或ChatGPT中期望的体验。不需要再在数小时的素材中反复拖拽进度条，你只需搜索、点击和使用。如果你想从篮球运动员的职业生涯精彩集锦中制作短视频，MXT甚至可以帮你完成初步的故事线规划和粗剪。客户使用MXT从视频库中查找和重新利用内容的速度比以前快了七倍。这种效率提升不仅仅是数字上的改进，它彻底改变了内容制作的经济学。

让我更深入地分析一下MXT与传统AI视频索引工具的根本区别。大多数AI驱动的视频索引工具依赖标签来使素材可搜索。虽然用"狗"、"海滩"或"人群"标记片段可能有帮助，但它并不能告诉你场景中实际发生了什么。MXT技术不是简单地分配通用标签，而是生成丰富的、带时间码的描述，像人类一样解释每个时刻。这种细节和上下文的水平使得找到你需要的确切时刻变得容易得多，而不是在数百个模糊标记的片段中筛选。

MXT-2的技术突破：三倍数据训练的智能升级

现在让我详细分析一下MXT-2这个最新版本的技术突破。MXT-2在三倍于前一版本的数据上进行训练，使其在描述视频内容方面变得更加优秀。它能够捕捉视频内容中更大的细节和细微差别。在视频序列任务上，MXT-2超越了Google Research的Vid2Seq模型47%的性能，这个数字背后代表的是质的飞跃。为了说明这种改进，我们可以看看前一个模型和新的MXT-2模型如何描述同一图像的差异。新版本的视频描述更加智能和精确，能够提供更丰富的上下文信息和更准确的场景理解。

MXT-2引入的"自定义时刻"功能让我尤为兴奋。通过自定义时刻，你现在可以准确定义特定内容类型的分割方式，使得大规模查找特定时刻变得前所未有的简单。不再需要筛选数小时的素材，你可以立即精确定位对项目最重要的片段。比如，负责烹饪节目的数字团队可以使用自定义时刻自动突出显示和描述每道菜呈现给评委的画面，记录菜品类型、参赛者排名（获胜者、前三名或被淘汰者）等细节，从而创建一个可搜索的多季度最佳素食菜品集合。

新闻记者可以将每次播出的新闻节目分解成单独的故事段落，并按预定义的主题标记：重大事件、感人故事、生活新闻、经济或天气报告。这使得搜索和重新利用特定故事变得容易。处理故事片长度自然纪录片预告片的编辑可以基于节目的叙述立即浮现最具视觉冲击力的场景或关键短语。他们不需要手动梳理数小时的素材，而是可以查看关键建议时刻，如令人惊叹的摄影或有影响力的引语。一个体育编辑在报道拉力锦标赛时，可以通过设置自定义时刻来检测高冲击力的碰撞、超车或险些碰撞，快速汇编本赛季最令人惊叹的时刻，而不需要手动审查数小时的比赛录像。

自定义时刻确保最相关、最具影响力的内容立即可访问，无论正在制作什么故事，都能减少手动编辑时间。这种功能的价值在于它能够适应不同类型内容的特定需求，而不是提供一刀切的解决方案。

MXT-2的另一个重大创新是"自定义洞察"功能，这个功能解决了视频标记和组织一直以来混乱、不一致的问题。尽管一些组织试图执行命名约定和分类法，但一些用户仍然以一种方式标记片段，而其他人以另一种方式标记，导致混乱、无序的混乱状态。自定义洞察通过利用MXT生成的元数据，可以根据对你最有意义的任何参数立即对视频进行分类，无论是按主题、主题、内容类型还是更具体的内容，分类不再是手动负担。

我发现自定义洞察的深层分析能力特别令人印象深刻。以拳击比赛为例，你可以要求自定义洞察按以下标准对视频进行分类：拳手的重量级别、谁获胜了、比赛在哪一轮决出胜负、比赛是通过击倒、点数判定还是平局结束的。有了这种程度的洞察，你可以立即搜索弗洛伊德·梅威瑟在前五轮中的最佳击倒，使内容发现变得毫不费力。这种能力不仅简化了视频组织，还使探索性搜索变得容易得多，无论你是在归档素材、为项目提取片段，还是只是试图在庞大的视频库中找到最佳时刻。

自定义洞察不仅帮你找到内容，还帮你使用它。除了生成媒体级别的标签来帮助分类视频外，它还可以用于自动生成任何你可以用于发布的文本，或者简单地获取关于视频的信息。你可以为想要发布到社交平台的视频生成引人入胜的标题、描述和标签；为要发布到流媒体平台的节目制作描述，而不会透露任何剧透；创建关键体育比赛的比赛报告；提供关于视频中提到但未出现的人物的见解；为想要在网站上发布的体育赛事创建报告。

这种文本生成能力的价值在于它能够理解内容的上下文和语调。系统不是简单地提取关键词或生成通用描述，而是能够根据目标平台和受众调整语言风格。这意味着为LinkedIn生成的描述会与为TikTok生成的描述在语调和重点上有显著不同，即使它们描述的是同一段视频内容。

AI Agent时代的视频内容管理革命

现在让我深入探讨Moments Lab正在开发的下一个重大创新：AI agent在视频发现和媒体资产管理中的应用。我认为这代表了人机交互的一个根本性转变，从传统的点击式界面转向对话式智能协作。正如Moments Lab的首席科学官Yannis Tevissen博士所解释的："AI agent将重新定义我们与机器交互的方式。看到大语言模型在工具使用和计算效率方面的快速进步，代理很可能成为默认界面，即使对于视频库管理这样的复杂任务也是如此。"

我特别感兴趣的是AI agent如何改变我们与视频内容库的交互方式。传统的索引假设研究人员知道视频是如何被标记的，如果它被标记的话。许多编辑和制作人仍然依靠他们团队的记忆来找到他们需要的内容，比如回忆节目中的最佳镜头或从采访中找到特定信息。这种非常手动的过程减慢了制作速度，增加了成本，并限制了创造力。但是基于AI驱动的视频索引和理解，AI agent可以显著改善我们管理、搜索、重新利用和货币化视频内容的方式。

想象一下这样的工作流程：当AI自动整理、描述和管理你的媒体库时，你可以简单地输入你想要找的内容，并在几秒钟内检索到它。这就像有一个个人AI媒体研究员，确切地知道一切在哪里，你可以随时与之聊天。但好处不止于此。一旦代理通过索引理解了视频的上下文和关键时刻，它就可以自动创建简短摘要，建议引人注目的精彩集锦，甚至为不同的社交媒体平台或特定受众找到正确的片段。这大大加快了内容重新利用的速度，使视频适应不同用途变得更智能、更快速，因此你可以接触到特定观众，或快速响应趋势新闻。

联合创始人兼CTO Fred Petitpont对AI agent集成有一个深刻的见解："想象一下你已经在使用的工具，比如Slack或Teams。它们就像是将这些AI agent引入我们日常工作的秘密通道。你可能不再是打开程序然后四处点击，而是在Slack或Teams中与AI agent对话来完成简单的事情。传统的软件使用方式变成了最后一步，而不是第一步。"这种交互模式的转变将彻底改变我们对软件工具的认知和使用习惯。

产品集成与生态系统战略

从产品策略角度，我发现Moments Lab的集成能力特别值得关注。他们的平台被构建为无缝集成到广播公司、版权持有者和创意团队的现有工作流程中。无论你使用Adobe Premiere Pro还是Blackbird进行编辑，AWS还是LucidLink进行存储，Digiteka还是YouTube进行分发，Moments Lab都能无缝集成到你的工作方式中。这种广泛的兼容性不是偶然的，而是深思熟虑的产品战略的结果。

我认为这种集成策略的重要性在于它降低了采用门槛。如果一个新的AI工具要求企业彻底改变他们现有的工作流程，那么无论这个工具多么强大，采用率都会很低。但是当工具能够插入现有系统并立即提供价值时，企业更有可能尝试并最终采用它。Moments Lab显然理解了这一点，并围绕这个理念构建了他们的产品。

对于那些只有一个视频需要分析的情况，你可能可以使用Google或Amazon的基本视频索引工具。但当你处理数十万小时的素材时，情况就完全不同了。那些工具不容易扩展。你需要构建内部工作流程，启动基础设施，管理数据管道，并组建团队来保持一切运行。这不仅仅是一次性设置，而是维护和更新整个系统的持续努力。很快，成本（无论是时间还是金钱）开始螺旋上升。Moments Lab专门为这种规模而构建，所以你不必重新发明轮子。

通过MXT公共API的发布，这项技术现在对开发者和组织来说更加可访问，可以在此基础上进行构建。这个API策略表明Moments Lab不仅仅是想成为一个封闭的产品，而是想成为更大的视频AI生态系统的核心基础设施。开发者可以利用MXT的强大能力构建自己的应用程序，这将进一步扩大Moments Lab技术的影响范围。

客户案例与市场验证

从客户反馈来看，Moments Lab已经在实际应用中证明了其价值。在与一些客户的对话中，他们特别称赞了Moments Lab在自动生成摘要、标题或粗剪时保持与客户语调和艺术风格一致的能力，这大大加快了内容的价值实现时间，而不会损害真实性。这种对品牌一致性的关注是许多AI工具忽视的关键因素，但对于媒体公司来说却至关重要。

Moments Lab的客户遍布美国、欧洲、中东和南美，他们已经看到了更快的视频工作流程、更丰富的内容发现和扩大的货币化机会的价值。最近签约的客户包括Thomson Reuters、Sinclair、Hearst、Amazon Ads和Banijay等行业巨头，这些名字本身就说明了技术的成熟度和市场认可度。这些不是小型实验性项目，而是大型媒体组织的战略性技术采用。

我特别关注Amazon Ads作为客户的意义。这表明Moments Lab的技术不仅对传统媒体公司有价值，对于数字广告和营销领域也有重要应用。在广告制作中，快速找到合适的素材、创建多个版本的广告内容、针对不同受众定制信息等需求都可以通过Moments Lab的技术得到更好的满足。

据报告，Moments Lab在过去12个月里经常性收入翻了一番，并且正朝着2025年的指数级增长轨道前进。这种增长轨迹表明市场对这类技术的需求确实存在且正在快速扩大。更重要的是，这种增长是可持续的，基于真实的客户价值而不是投机或炒作。

技术挑战与未来发展方向

尽管Moments Lab在AI视频理解方面取得了令人瞩目的成果，但我认为仍有一些技术挑战需要持续关注。当前的AI技术虽然令人印象深刻，但在需要创造力、对人类情感和意图的细致理解以及复杂抽象推理的领域仍然有局限性。AI agent可以非常准确地分析、推理和处理视频内容，但它们的表现仅与底层元数据的质量一样好。

这就提出了一个关键问题：在我们在每个媒体库中欢迎AI agent之前，我们需要做一些准备工作。你的音视频内容索引得有多好？质量索引元数据是有价值的AI agent用户体验的基础，这正是Moments Lab通过MXT和他们的AI agent为客户提供的。据他们的联合创始人兼CTO Fred Petitpont介绍，他们的AI agent在封闭测试发布中已经超出了预期，一些用户告诉他们"这就像有了一个额外的团队成员！"

我也思考过如何最有效地在日常工作中使用AI agent。如果编辑不知道如何给代理清晰的指示（比如一个好的提示），即使是最聪明的AI agent也不会很有帮助。想想公司如何销售他们的在线软件（SaaS）。这正在快速变化，因为AI agent开始承担我们过去直接用软件做的一些任务。未来，甚至可能有比人类更多的代理使用SaaS产品。

从长远来看，我认为Moments Lab正在构建的不仅仅是一个产品，而是整个媒体行业数字化转型的基础设施。随着5G、云计算和边缘计算技术的进一步发展，视频内容的产生、分发和消费模式都在发生根本性变化。Moments Lab的技术为这种变化提供了智能化的支撑，让媒体公司能够更好地适应和利用新的技术环境。

投资价值与行业影响的深层思考

从投资角度分析，Oxx选择领投Moments Lab的2400万美元融资展现了对这种技术趋势的深刻理解。正如Oxx的主管Gökçe Ceylan所说："Moments Lab是那种产品真正感觉像魔法的罕见公司之一。我们第一次看到MXT的实际操作——在几秒钟内从数小时的原始视频中提取见解——我们就知道这个团队正在解决一个只会越来越大的问题。Philippe和Fred构建了一个世界级的AI引擎，并围绕它建立了产品DNA和客户同理心，这给了他们严重的优势。"

我认为这次融资的时机特别重要。我们正处在从本地部署系统向云原生基础设施的行业转变的拐点。这种转变为速度、可扩展性和协作提供了新的可能性。过去依赖传统工作流程的组织现在开始采用支持实时内容处理和分布式团队的云工具。同时，视频内容使用方式的根本性改变也推动了这种需求。单一事件或一段素材不再是编辑一次发布到单一目的地，而是被切片、本地化、加字幕并分发到越来越多的平台上。

AI正在改变我们对内容的思考方式，关键是让内容变得常青。曾经被认为是"档案"的媒体现在正在被重新想象、重新浮现和重新利用。实际上，"档案"这个词在现代媒体运营中正在变得过时。传统解决方案根本不是为了处理挖掘非结构化视频文件中锁定的价值所需的规模、速度和语义深度而构建的。今天，每一段内容都是一个活的资产，富含未开发的潜在价值。

更具体地说，多模态AI——能够理解和综合视觉、音频和文本信号的模型——使得将视频视为数据成为可能。在这个新现实中，Moments Lab正是那家大规模释放这种能力的公司。通过自动化视频创建和协作工作流程的大部分内容（从摄取和索引到发现、编辑和分享），Moments Lab让团队能够更快地行动，创造更多内容，并从每一帧素材中提取更多价值。

对媒体行业未来的战略性展望

我相信Moments Lab代表的不仅仅是一种技术进步，更是媒体行业生产方式的根本性变革。当视频内容的管理和发现变得如此智能和高效时，整个内容创作的经济学都会发生改变。过去，制作一个高质量的视频节目需要大量的人力投入到素材整理和编辑中，这使得只有大型制作公司才能承担复杂的视频项目。但是当AI能够在几分钟内完成过去需要几天才能完成的工作时，更多的创作者和小型团队将有能力制作专业级别的内容。

我特别关注这种技术对内容多元化和创新的促进作用。当寻找和组织素材不再是创作过程中的瓶颈时，创作者可以将更多精力投入到创意构思和故事叙述上。这可能会催生出我们目前还无法想象的新型内容形式和叙事方式。比如，AI agent可以帮助创作者从不同角度重新审视历史事件，通过智能搜索找到以前被忽视的珍贵镜头，创造出更丰富、更多维的历史纪录片。

从商业模式角度看，Moments Lab的技术将使内容资产的货币化变得更加精细和高效。媒体公司不再需要让大量珍贵内容在档案库中沉睡，而是可以通过AI的智能分析，持续发现新的商业机会。一段十年前的采访可能因为当前的热点话题而重新获得价值，一个过去不太受关注的体育时刻可能因为某位运动员的最新成就而变得珍贵。这种动态的价值发现将为媒体公司创造持续的收入流。

从更宏观的角度看，我认为Moments Lab正在构建的是整个媒体生态系统数字化转型的核心基础设施。随着内容创作民主化、分发渠道多元化、消费习惯个性化等趋势的发展，传统的媒体价值链正在被重新塑造。在这个过程中，那些能够快速理解、处理和利用视频内容的技术将成为竞争优势的关键来源。Moments Lab通过其MXT技术和AI agent平台，为这种转型提供了强有力的技术支撑，让媒体公司能够在新的竞争环境中占据有利位置。

最后，我认为Moments Lab的成功预示着一个更大的趋势：AI将从工具层面深入到创作流程的核心。未来的媒体制作不再是人类创作者使用AI工具，而是人类创作者与AI系统深度协作，共同完成复杂的创作任务。在这个过程中，AI负责繁重的数据处理和模式识别工作，而人类专注于创意、情感和价值判断。这种人机协作模式将释放出前所未有的创作潜力，推动整个媒体行业进入一个新的发展阶段。Moments Lab的2400万美元融资只是这场变革的开始，我期待看到更多类似的创新公司涌现，共同塑造媒体行业的智能未来。