小鹏汽车宣布完成C+轮近5亿美元融资,高瓴、红杉等投资
06-17
郑雯还记得几个月前的那个下午。
那天,她一小时赚了2分钱。
毕业于湖南某大专,大模型数据标注师。
她的日常工作并不复杂——为她收到的原始数据(如图像、视频、文本等)添加标签。
然而,大型模型对数据质量的要求非常高。
那天,一张照片修改了八次才被批准。
整个修改过程花了一个小时。
也就是说,她一个小时只赚20毛钱,而正常情况下她可以赚12块钱,所以她可以拉一个箱子。
“钱不容易赚。
”她反复强调。
这是几乎所有数据标注从业者的共识。
数据标注的一端承载着从业者月薪不足1元的工资,他们像蚂蚁大军一样搭建起大模型的基石。
另一端是各大互联网公司的AI梦想,他们希望超越Chat GPT 4。
数据标注采用最原始的计件制计算工资,职场中没有勾心斗角。
* 这项枯燥的工作让他们中的大多数人很难坚持三个月。
而且,几乎所有人都告诉Tech星球,你不应该去。
但他们不知道的是,他们中的大多数人可能很快就会失去无聊的工作。
因为那些简单的数据标注将会被AI所取代。
01 从5毛钱到4毛钱,价格暴跌。
林爽2018年赚了“快钱”:15天倍数。
对于大专毕业的林爽来说,这笔收入确实很可观。
彼时,人们对AI的期待值直线上升。
几乎没有人怀疑它的未来。
所有投资机构都坚信,这里可以诞生数十亿、数百亿、甚至千亿规模的企业。
几乎所有人工智能技术的背后都是算法、算力、算力的竞争。
海量数据是技术卓越的底层。
背景光鲜亮丽的程序员坐在“北上广”的办公室里,通过代码迭代算法绘制AI蓝图,而大学生、妈妈们等则在三、三地的小隔间里处理海量数据包中的图像、文本和语音。
四线城市。
等待。
ChatGPT 也不例外。
百度文心一言项目组的一名员工表示,大模型本身并没有什么新技术,也没有很高的技术壁垒。
关键问题是算力壁垒形成的参数壁垒。
大模型时代的数据注释器与过去并没有特别不同。
少数的区别可能是更舒适的办公环境和对注释质量的更高要求。
一位数据标注从业者告诉Tech星球,他们刚进入这个行业时,通常会组成一个10人左右的团队,其中一个负责质检。
如果工作不合格,员工将被送回重做。
数据的质量决定了大型模型的质量。
数据民工并不关心人工智能技术的任何新分支。
他们更关心单价,因为这里的工资是按件计算的。
“当时单价高的时候,一个2D帧就要1分钱多,巅峰时期,我工作10多个小时,一天就赚了1块多钱。
”林爽回忆道。
。
然而,这还不是最高的。
一位注释者表示,早期 2D 框架图的价格可能高达 50 美分。
画框是数据标注中的常用操作。
标注者根据要求标注图片中的物体,如车辆、红色路灯、障碍物等。
帧分为2D和3D,后者会更贵。
但这种流行并没有持续多久。
随着越来越多的人涌入以及AI行业整体发展的不顺利,标注一张图片的单价越来越低。
林爽说,现在价格只要4毛钱。
“如果是做框架,行业平均单价在0.15元左右,但还是要看项目。
如果自己能接单,接一手订单的首要条件应该是新员工。
规模相当大,3D帧可能每个要30美分,但很少达到50美分,“当然,如果你有医疗和金融领域的专业知识,单价会更高。
例如,许多大型医学模型需要注释者具有临床专业知识和相关经验。
大多数从业者的月收入不足1元,其中也不乏少数幸运儿。

杨硕原本在四川经营一家服装店,但疫情影响了他的生意。
今年,他转向大规模模型数据标注。
现在,他每月收入1万元。
“我和公司签了合同,支付了1000元。
加盟费,合同上写着*月收入为人民币。
” 0??2 谁赚钱?阿里、腾讯、字节等互联网巨头,以及上汽、领克等车企,都是收入来源数据标注业务分布,如果想要以最低的价格直接从源头获得订单,数据标注公司需要有一定的规模,一位数据标注公司的员工告诉Tech星球,他们直接从大工厂拿订单,但大工厂要求他们有人员,所以他们会选择通过特许经营或子公司来满足人员要求,两者的区别在于特许经营适合刚入行的人设立工作室。
设立子公司,一般一个地区只有一个,需要收取加盟费,一个子公司是一个地区的独家代理,需要缴纳5万的费用。
并能保证三年内有足够的订单,并负责三年内的技术培训。
这些工作室或子公司组成了一个庞大的工会,少则数百,多则数千。
上述数据标注公司的员工表示,大模型的流行再次将数据标注行业推向热潮,现在几乎每天都有人参观他们的公司。
但事实上,经营一家数据标签公司并不容易。
数据标注公司告诉你的是,这个行业前1到2个月很难做,因为员工需要一个磨练期。
前期只要5-8人就够了,就算是40多岁的大妈也没有问题。
对于数据标注公司或工作室来说,稳定性是最重要的因素。
然而,Tech星球接触到的标注员工,大多经常因为无聊而在3个月内光速离职。
新员工并不能立即投入实际操作。
人员流动率高的结果是数据标注的质量和周期不够稳定。
。
缺钱的妈妈们是数据标注工作室最青睐的人群。
“找兼职肯定不行,会有缺口,如果投资房租、电脑,就会亏本。
最好的办法就是让所有员工都工作。
”经营数据的魏明说。
注释工作室,告诉Tech星球。
大多数数据表明,公司的支付周期从3个月开始,最长可达半年,但他们需要按月向员工支付工资,这需要一定的财务储备。
“对于一个人来说,三个月就是一万。
” “张健曾经加入过很多工会,第一年,他们赶上了行业的爆发期,二维框架图的单价高达5毛钱,那一年,他的工会就赚了几万。
但到了第二年,情况却急转直下,标价单价变低,员工流动性加大,加上两个大项目一整年都没有解决,就损失了几十个。
“老板们都说了,短期内不会碰数据标注,”张健说,“他们目前正在跟上游打官司。
”这是一项利润较低的业务,海天瑞升是目前数据标注行业第一家主板上市公司,去年该公司营收2.63亿元,利润仅1万元,净利润率刚刚过万。
但今年上半年,公司因客户数量下降而陷入亏损。
03 依靠蚂蚁搬家的积累,OpenAI。
最终凭借其大规模语言对话模型能力脱颖而出,这些被称为数据工作者的普通人支持着 Sam Altman(OpenAI 创始人)的 AI 梦想,但如果不出意外的话,大部分工作都在他们手中。
很快就会被他们参与创建的新产品所取代,在国外,由 Open AI 前员工于 2001 年创立的 Anthropic 今年已筹集了 51.5 亿美元,是过去两年融资总额的七倍多。
该公司提供了一种减少人工参与的模型训练新方法。
今年,AI初创公司refuel推出了一款名为Autolabel的开源工具,可以使用市场上主流的大型模型来标记数据集。
该公司的测试结果表明,Autolabel的贴标效率是人工贴标的两倍,而成本仅为人工成本的1/7。
在中国,一家名为Vision Future的公司也在构建大规模注释模型。
他们在接受采访时表示,一些项目已经使用GPT进行交付,准确率达到了80%以上,接近手工作业。
不过,海天瑞盛认为,AI并不会实现完全自动化标注,因为机器想要继续进化,让其更加接近人类的判断和理解,肯定需要人类的指导。
几乎所有从事过数据标注的人都向Tech星球透露了同样的观点:数据标注是一个没有门槛的工作,只需要你熟练使用计算机即可。
但事实上,如果简单的标注可以用AI完成,那么人工参与将是更加困难的数据筛选和标准工作,这也意味着行业的门槛将不断提高,尤其是ChatGPT、文心一言等大型语言模型类。
作为对比,早在ChatGPT流行之前,OpenAI就组织了十几名博士生进行“标记”。
百度海口数据标注基地拥有数百名专职大模型数据标注员,标注员本科率达到50%。
这类大型语言模型的特点是标注者需要具备一定的知识储备和逻辑分析能力。
根据《财经十一人》报告,注释者需要确定问题的类型,然后分别对5个答案进行评分和排名。
评分范围为0-5分。
如果分数低于3分,必须注明具体原因,例如“答案不是所问问题”。
0分)”、“严重跑题(1分)”、“存在逻辑问题和事实错误,且比例较小给2分”等。
数据标注的另一个热门领域是自动驾驶。
据德勤报告显示,2020年自动驾驶领域的标注需求占整个AI下游应用的38%,预计到2020年这一比例将上升至52%。
与大型语言模型相比,对于模型来说,在自动驾驶领域,那些简单的拉箱子操作还是学术要求比较宽松的,标注者是人类从移动互联网时代到人工智能时代的基石,Tech星球接触到的从业者大多没有。
他们不知道AI会给他们带来什么改变,也不知道他们为AI的发展做出了哪些贡献,他们只是互联网时代的新一代螺丝钉,随时可能被取代。
(注:本文人物均为化名。
)【本文由投资界合伙人Tech星球授权。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-06
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态