AI热点 4小时前 53 浏览次数 0 评论

突破AI行业高质量数据缺乏的瓶颈,Surge AI营收超10亿美元

AI中国
AI中国

发布了 8235 文章

估值290亿美元的ScaleAI,正面对一个强大的对手,一家叫Surge AI的AI数据公司公布自己的营收超过了10亿美元,而ScaleAI在同期的营收是8.7亿美元。同时,Surge AI目前已实现盈利。

路透社援引消息人士称,Surge AI已聘请顾问,计划进行其公司历史上的首次融资,规模或高达10亿美元,目标估值超过150亿美元。

在首轮融资之前,Surge AI一直依靠自有资金实现滚动发展,这次融资将结合新股发行与老股转让,旨在为员工持股提供变现机会。

01

MIT出身的华人创业者,

用高质量数据为OpenAI和Anthropic的SOTA模型提供“动力”

Surge AI的创始人Edwin Chen毕业于麻省理工学院(MIT),他在MIT著名的CSAIL实验室搞研究,专注于算法交易、理论计算等领域。在创立Surge之前,他曾在谷歌、Facebook和Twitter担任机器学习和数据相关的工程职位。

Surge AI创始人Edwin Chen(来源:20VC的视频截图)

在创立Surge AI时,Edwin Chen拉来不少老同事,例如工程团队负责人Andrew Mauboussin,他是前Twitter机器学习工程师,毕业于哈佛大学计算机科学专业。还有产品与增长负责人Bradley Webb,他是前Facebook数据运营负责人。

高质量数据是AI性能提升的必需品,它来自人类的智慧和创造力

算法,算力,数据是AI模型性能的三大要素。

Surge AI创始人Edwin Chen认为,在这三个要素中,数据质量排在第一位,其次是计算能力,然后才是算法。

就像Ilya Sutskever在公开演讲时说的那样,我们熟悉的预训练模式已经终结了,因为算力在增长,但是数据,尤其是高质量数据已经枯竭——我们只有一个互联网。

现有大语言模型的数据来自于人类历史上积累的知识(包括互联网),但是这些数据基本上被用尽了,至少在这些基础数据部分,各大AI实验室训练出来的SOTA或准SOTA模型没有本质区别。

在基础数据之外的部分,各类SOTA模型就各显神通了,例如Anthropic的Claude模型,在AI Coding上优势较大,而谷歌的Gemini和OpenAI的o系列最近则在卷数学,各种让AI拿IMO的奖项。

这种分领域的性能优势,不是来自预训练,而是来自RLHF,决定RLHF阶段效果的,除了创新的算法(例如PPO)外,数据的质量更是决定性的。

而Surge AI的一大特点,就是专注在数据的质量,这也和创始人Edwin Chen的职业经历有关。

在AI领域应用开发浸淫了十年以上,Edwin Chen面临的最大瓶颈,就是如何获取值得信赖的人工标注数据。

这个问题,又可以分为两个方面,速度慢和质量差。

比如一些对相关性和精确度高的数据标注,往往花费数月时间。另外,无论是公司内部的标注团队还是外部标注公司,给出的数据质量都不尽如人意。例如,有一次Edwin Chen发现外部公司交付的数据集,有50%的数据完全就是垃圾信息。

在自身经历的推动下,Edwin Chen决定进入AI数据领域创业,在2020年创立了Surge AI。

在最新的访谈中,Edwin Chen介绍了他怎么定义和制造高质量数据,他的这种认知,其实造就了Surge AI的比较优势。

首先,他认为人们高估了合成数据,举例来说,他的客户曾经试验合成数据,生成了一两千万条数据,但99%的数据都没用。

由此,它认为人类反馈是数据生产的金标准。但是也不是所有人类都是好的,现在有些人类标注员,标注的数据非常水。例如客户想训练模型写一首关于月亮的八行诗,大多数标注员在标注时,会这么衡量:这是一首诗吗?有八行吗?包含“月亮”这个词吗?如果都满足,他们就认为符合质量标准,AI遵循了所有指令。

显然,按照这个标准,AI不可能写出真正好的八行诗。

另一个对AI模型评估失真的模式,是竞技场(arena)模式。在AI竞技场,人们输入提示词,花5-10秒的时间比较两个模型输出,然后凭感觉选出那个更好的。

在这5-10秒的时间,他们不可能评估出模型是否出现幻觉,是否符合事实准确性,是否真的遵循了指令。

那么人类如何制造高质量的数据呢,那就是让专家来做专业的事情。Edwin Chen举了一个例子,当评估关于月亮的八行诗时,应该让真正的诗人,文学家,例如海明威来评估,而不是满足清单上的条条框框。

Edwin Chen认为,高质量数据来自人类的智慧和创造力。用真正高质量的数据去训练和微调模型,它们不仅是学会遵循指令,更是学到深层次的模式,是那些让语言和世界变得有意义的东西。

Surge AI用人机协作的方式构建高质量数据生产流程

Surge AI在产品方面的基本盘就是它的专业标注团队,以及他们自己构建的评估体系和数据专用基础设施。

在具体的操作方式上,他们首先将传统的电子表格抛弃掉,自己构建了功能丰富、完全可定制的数据标注模板。

然后他们拥有简单易用的API,让通过编程方式创建标注任务变得很容易。

第三,他们将质量控制看作一个对抗性问题,他们构建了精密的机器学习基础设施来标记并修正人为错误。

最后,Surge AI还有一个“人机回环”基础设施。随着客户发送更多数据,他们的算法变得越来越精确,机器学习模型就能接管越来越多的标注工作。

总体来说,Surge AI是一家“人机协同公司”,而不是像传统数据标注公司一样,是“劳务公司”。

Surge AI帮助Anthropic升级它的RLHF工作

据报道,Google、Anthropic和OpenAI等顶尖人工智能研究机构均在使用Surge AI的数据标注服务。随着人类反馈强化学习(RLHF)在高级人工智能系统开发中的作用日益关键,市场对精确标注数据集的需求也水涨船高。

以Anthropic为例,它们的Claude系列模型一向以RLHF的完善著称,但是要对一个大尺寸模型进行精密的RLHF,需要构建大规模收集高质量人类反馈的数据管道;要有具备相应技能的人员来标注语言模型;还需要构建稳健的质量控制基础设施;这些任务,本身都是极具挑战性的。

Surge AI为Anthropic的RLHF工作提供了专有的质量控制技术(先进的人机协同算法与技术),领域专家标注员(编程,法律、医学、商业及STEM学科),以及红队测试工具,这些综合起来,协助Anthropic“调教”出Coding超强,又会聊天的Claude模型。

02

AI行业对数据的渴求程度,质量大于数量

现阶段,对于AI模型的性能影响,后训练的重要性逐渐与预训练齐平,甚至可以说,后训练的质量,决定了模型是否具有差异性优势,而相比预训练,后训练对于高质量数据更加渴求。这个渴求的程度,对数据的质量要大于数量。

显然,AI数据领域的公司们都意识到了这个问题,除了Surge AI外,另一家以高质量数据为主打的公司Micro1正以5亿美元估值进行融资,还有我们此前提到的AI招聘公司Mercor,也涉足这一项业务。

AI行业在数据方面的瓶颈,除了高质量数据的缺乏外,还有一个问题是细分行业的高质量数据都隐藏在各个数据孤岛里。例如,很多工业的数据,只存在于工厂里,但是这些数据又没有经过整理和清洗,用来优化模型,很可能因为要整理它们,需要花费过多的成本。怎么低成本的将这些数据利用起来,这里可能也存在创业机会。

另外,在AI行业的另一个大的分支,具身智能,对于高质量的数据也特别渴求,甚至更加渴求,因为它们并没有一个互联网,也不存在人类上千年积累的知识库。所以,为具身智能提供高质量的数据,将对这个行业的发展起到巨大推动作用。

阿尔法公社最近在早期阶段投资了一家为具身智能模型提供高质量数据的公司,希望它能早日帮助具身智能行业迎来“GPT-4”时刻。

本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:阿尔法公社,36氪经授权发布。

AI中国

AI中国

8235 文章 1316198 浏览次数 950300 粉丝

评论 (0)

睡觉动画