AI催生十亿万富翁诞生记
ChatGPT的横空出世加速了AI时代的到来,众多科技大佬挤破头对战GPT的同时,。数据标注到底是什么?它是如何在AI热中“卖铲子”的?这把铲子又有多值钱?谁赚到这把铲子的钱?未来还有机会么?
从出生到获得1亿用户,谷歌翻译用了78个月,Instagram用了30个月,Tiktok用了9个月,而ChatGPT只用了2个月。要知道2个月的人类幼崽才刚刚学会社交微笑。不仅是用户拓展,一切沾上AI的东西似乎都被提速了,包括造富。
于是福布斯榜单上诞生了最年轻的白手起家十亿万富翁,26岁,来自AI产业的华裔青年Alexandr Wang。他的名字和著名设计师王大仁,大王的英文名几乎一摸一样,只少了个“e”,所以我们下面简称他小王。据说,他的父母取名字的时候特意要凑8个字母把这个e给去掉了,8就是发嘛,而他的财富就是在我们今天重点要说的数据标注这个赛道中创造的!
AI界最常说的一句话就是”Garbage in, Garbage out”直接翻译就是垃圾进垃圾出。说得更直白一些,AI行业就是和小孩一样,教他什么他就学什么。比如你天天和孩子说英文,不可能指望日后会和你聊日语。放到AI身上,就是给的数据越好,训练出来的AI就工作得越好;给的数据差,那效果就差。
那么问题又来了,什么算是优质的数据呢?一般来说,高质量的数据,都是精确打好标签(tagging)的,比如这个图像是花,这个声音是鸟叫,这段文字是介绍历史,以及是在一个什么样的背景,这样的一个过程就是数据标注。
大家应该都有经历在登陆某账号时,被要求去识别一些图像,打勾哪些有轮子,哪些有红绿灯。其实无形当中,我们就帮着做了一次数据标注,有没有突然觉得我们处处都在被科技公司揩油。
数据标注这件事很重要,因为你越准确得让AI系统清楚自己在学啥,它就能学得越快,而且准确性越好。这和教小孩识字很像,你给他们一堆书,让他自己去发现每个字是什么,和你一个字一个字告诉他每个字是什么,肯定第二种学得更快更好。
对于AI的发展,好数据是如此重要,所以有人称数据是AI时代的石油。不但重要,而且需求量一样得大。那大到什么程度呢?一般来说机器学习需要的最小数据量是参数的10倍,比如区分一只狗和一只猫,要依靠1000个参数,那你的图片数据就至少要有10000个。就拿大家已经很熟悉的ChatGPT举例,它的前身GPT-2涉及15亿个参数,到了GPT-3涉及1750亿个参数,用到570GB的数据;到了最新的ChatGPT4.0,有人预计,用到了1万亿个参数,数据量就更大了。
有人估算如果我们人每周读一本书,一生差不多能读3800本书,现在一本电子书超不多是600-800kb左右,我们按800算,总共的数据量不到3GB,还不到一个模型需要的数据量的1%。
数据标注的需求如此之多,那么这个工作是怎么来完成呢?虽然没准确的数据,但现在我们依然需要人的判断去引导机器,绝对是有多智能就有多人工。机器标注也有,但依然还有很多局限。
一种就是像刚才说的,找机会揩用户油,让用户帮着标注的是一种,叫做众包(Crowdsourcing)。但一天基本我们也就会做1-2次,加在一起也非常有限。另外当然还是得内部建专门的团队来做这项工作,这就成为了增加科技公司成本和管理难度的问题,于是外包就成了一个必不可少的解决方案。
这个时候,我们的小王就登场了,他在19岁的时候就看到了这个随着AI技术崛起而来的巨大商机,创办了一家叫Scale AI的公司来专门做数据标注外包的生意,这公司名字也有意思,让AI做大做强吗?
Scale AI创办于2016年。这一年最重要,著名的科技杂志《连线年是无人驾驶接过方向盘元年”。从谷歌到Uber,从特斯拉再到福特,再到各种大大小小的勇于探索商业模式的公司,不管是做车的还是做技术的都在死磕无人驾驶。
我们知道要帮助无人驾驶系统识别路况,需要大量的视频图像数据,因此整个行业急需有人来做数据标注。Scale AI一成立就赶上了这个机会大赚了一笔,当时大部分做过无人驾驶的公司都是他们的客户,光是苹果一家的账单就有上千万美元。到了2019年,Scale AI的年营业额就已超越4000万美元。那一年的小王才22岁,是很多年轻人刚刚大学毕业的年纪。
后来无人驾驶的热潮慢慢降温了,但是AI行业还一直在拓展。以ChatGPT为代表的生成式AI热又给小王带来了新一波机会。后来,OpenAI等一大票客户都找上了门来,连国防部都是Scale AI的客户。后面的情节不用说,大家也能预见到,Scale AI一路狂飙,去年的营业额突破了2.5亿美元。
并且Scale AI也一直是投资圈的宠儿,以硅谷教父Peter Thiel为首的风投家们,给Scale AI总体投资超过6亿美元,并在2021年给了Scale AI超过73亿美元的估值。就这样,小王闪现福布斯排行榜,成为了最年轻的白手起家Billionaire,可谓名利双收。
Scale AI能够迅速拿下数据标注的机会,除了抓住了无人车和AIGC发展的需求,主要靠的是薄利多销。那么它怎么做到的呢?Scale AI其实一直不想暴漏自己赚钱的秘诀,他们靠的并不是有什么Rocket Science或者黑科技,简单得说,是发展出AI届富士康的模式。
刚创业不久的Scale AI就发现规模越大,平均雇佣培训和管理的成本反而越高。于是在2017年建立一个叫做Remotasks的人力资源子公司公司。这个公司专门负责在肯尼亚,菲律宾和委内瑞拉等发展中国家培训大批的数据标注技术工。虽然Scale AI网站上表示,员工只有600多个,但是借助包括Remotasks这样的人力资源公司,实际人员有24多万人。
有没有感觉AI要取代的人可优先考虑的新工作出现了?但我们也要注意到当中很多是发展中国家。为什么?因为便宜!毕竟很多人的时薪还不到1美元。靠着这些廉价的国际劳工,Scale AI的利润率在2019年上升到了69%,是不是有点科技版血钻,或者AI界富士康的感觉。真的是有多人工,就有多智能。
虽然Scale AI不想暴露自己的秘诀,也从不对外宣传,但这种赚钱模式很快就成为了行业里公开的秘密。只要找到足够多足够便宜的劳工,Scale AI的成功就可以复制。并且AI对数据的需求慢慢的变大,数据标注的机会依然存在。于是陆续有更多的勇于探索商业模式的公司进入了这个领域。
不少公司走的也是类似的整合发展中国家人力资源的路子,比如Pure Moderation;还有一些专攻细分行业数据的,比如深耕医疗的Encore;当然也有一些依靠发展AI工具,用机器去做数据标签的公司,比如LabelBox。这一个方向如果有突破,就有望进一步大幅度降低成本,成为数据标记的王者,所以Scale AI也号称在大量使用AI标注。
我们才刚刚步入AI时代,数据标注的红利期应该还没有过去,可能才刚刚进入爆发,谁能笑到最后,让我们拭目以待。你怎么样看待数据标注的产业机会?你还看到什么AI时代的新机会?留言区我们大家一起讨论。