开心科技完成数千万元Pre-A轮融资,由奇安投资
06-17
在一家大型互联网公司担任数据标注员的小颜,在公司里常常感到孤立。
小颜的工作站旁边就是经理和程序员的产品。
他们可以享受同样的福利:同样的工作证、苹果电脑;他们可以随时去健身房或去太空舱睡觉。
但小颜能感觉到,作为一名数据标注者,她和其他同事属于“两个世界”。
虽然我们是一个团队,但每天早会,没人都会叫来注释员,小颜只能在门外偷偷看。
有一次,有人带来了一车台灯,这是团队正在开发的人工智能产品的原型。
程序员夫妇围在它周围,非常兴奋,并把它拿在手里把玩。
注释者们坐在自己的工作站上,忙着自己的事,没有发生任何意外。
“他们不知道该产品,它是根据标签数据制成的。
”当他加入公司时,小颜的公司正在开发一款教育人工智能产品,需要标记大量数据来训练人工智能。
该公司购买了堆积如山的中小学学习题册。
小颜的工作就是给每个问题拍照,然后在电脑上为这些问题画框并做注释。
同样为人工智能工作的程序员显然意识到自己工作的价值,享受着算法不断进步带来的乐趣,但很少有注释者觉得是自己的劳动创造了人工智能。
人工智能的进步离不开数据标注。
近年来自动驾驶的发展带动了数据标注市场。
据德勤报告显示,2020年自动驾驶领域的标签需求占整个AI下游应用的38%,预计到2020年这一比例将上升至52%。
为数据注释行业增添了动力。
大量基于大模型训练场景的订单正飞向数据标注公司。
看来数据标注这一枯燥的业务再次被注入了活力。
一些科技公司走得更远,正在尝试利用AI自动合成数据进行AI训练。
合成数据是基于少量真实数据,由AI无限生成且不需要标注,而不是依赖人工标注。
在自动驾驶领域,合成数据可以覆盖一些极端的路况,例如行人突然闯入道路。
在他们的想象中,未来合成数据将取代人工标注。
没有技术、单纯依靠人力的贴标企业将逐步被淘汰。
一项数据显示,国外人工智能使用的基础数据70%是合成数据,这条路径正在被验证。
对于数量庞大的数据标注者来说,以上并不是什么好消息。
不过,36氪联系到的一些标注者仍然不知道ChatGPT是什么,他们的反应就像第一次听说这个术语一样。
小颜说,标记者是一条随时可以切断的尾巴。
最大的悬念,就是这把刀何时彻底落下。
训练机器的注释者感觉更像是机器。
小河专业是英语系,大四时在一家大工厂实习。
第一天她就去上班了。
办公室在一栋办公楼里。
宽敞干净,完全符合她对互联网公司的想象。
没过多久,她就发现,面试时了解到的工作内容——“对公司语音数据进行整理和分类”——其实就是数据标注。
后来,小荷坦言,如果她知道这是开始为AI工作,她会立即离开。
团里有6名实习生,都是某名牌大学外语系的学生。
每天都有女队长分配任务。
有时是一堆英文音标,小河的任务就是区分英式发音和美式发音;有时它是一个Excel,点击它,你就会看到到处都是数据。
如果你向下滚动,有超过 10,000 个项目。
“感觉就像爬山一样。
”小荷说道。
我做的最多的“项目”是中学生口语批注。
注释者习惯于将工作视为项目,一个又一个项目。
小河每天听两段带有浓重口音的录音,每段两分钟。
如果你听到的是一般性问题,则得 1 分;如果你听到一个特殊问题,则得分 2;如果都听不到,则给0分。
为了防止泄密,他只能在办公室使用有线耳机。
小河的耳朵很痛,他感到“不由自主??地烦躁”。
她经常听到录音中使用脏话。
有些孩子没说几句话就开始咒骂。
还有一次,我们在做地图导航项目时,有人忍不住在录音中咒骂。
“我不知道为什么有些人如此愤怒。
”小河说你不能太当真。
你只能把这段录音标记为“无意义”,然后翻页继续听下一段。
几乎每个注释者都会这样描述自己:“就像一台机器”。
注释是理所当然的。
一位山东标注员表示,他做过的最难的项目就是指纹标注。
她从一个不认识的人那里得到了一堆指纹(有的还是模糊的),她需要沿着指纹的边缘一点一点地拉动框架。
“那天我回家后,一闭上眼睛就能看到满眼的指纹。
”很多项目都要求标注者严格保密,但标注者并不关心项目的目的是什么。
工作期间,贴标签者必须交出手机并将其放在墙上的挂袋中。
只有接到电话后,他们才可以取回手机。
大多数注释者都经历过从陌生到熟练、从新奇到乏味的过程。
该项目的早期阶段是最有趣的。
当时,标签规则尚未完善。
他们经常遇到有争议的地方,会互相讨论甚至争论,气氛活跃。
到了中后期,规则几乎定型,只剩下重复性、机械性的劳动,人们就会陷入一种无意义感。
一位注释者称这是一项“无需动脑筋的工作”。
上海大学教授贾文娟对数据标注进行了实地研究。
她认为数据标注不是脑力劳动或体力劳动,而是认知劳动。
“人们出售的是他们自己的认知。
”黑色幽默是,我们希望机器变得更像人类,但同时我们又让人类变得更像机器。
换句话说,抛开常识,像机器人一样思考。
而一旦标注者开始思考“我为什么要这样做”,就意味着他距离辞职已经不远了。
郑伟是一家数据标注公司的老板。
他直言留不住人。
公司只有不到20人。
新员工往往只能呆半个月。
很多人第一天来上班,第二天就下班了。
无奈之下,他只能不断降低招募条件。
最后他觉得“不是我在选择人,而是别人在选择我”。
他不知道如何留住那些离开的人。
“你留在这里会越来越好,我自己其实也不相信。
”郑专员告诉36氪。
员工流失最终让公司不堪重负,当只剩下两名注释员时,他决定解散团队。
不久之后,ChatGPT掀起了AI新浪潮。
大模型的兴起有利于数据标注,但也加剧了标注团队的内卷化。
谈到接工,小戴表示,现在市场上80-90%的标识项目单价很低,“因为中间分包商太多”,“他们都想在项目上盈利”。
价格差异,并且不想实际做这项工作。
” 。
他在众包平台做了两年标注员,今年开始创业,组建了自己的标注团队。
数据标注的利润并不高。
以自动驾驶的2D框架图为例,大公司的订单调度价格为10美分,接手工作的贴标团队每人成本为8美分。
“现在已经降到5、6分了。
”小黛说道。
他算了一笔账,如果低于8点,他就只能赔钱了。
△自动驾驶标注;来源:apen官网 为了生存,小呆大部分时间都在寻找项目,闲逛在各个平台和贴吧。
项目有真有假,而且大多不靠谱。
代理商遭受了损失。
有一个项目,等了8个月钱还没到。
后来他先做兼职标注员,试标结算没有问题后,才让团队接手工作。
有一次听说平台要在半夜3点发布一批项目,就提前定了闹钟抢订单。
人员流动、单价低、回款不稳定等问题就像肿瘤一样,拖累了这个行业大多数小公司的发展。
没有哪个注释者不鄙视这份工作。
他们赚不到钱,也看不到晋升空间和发展机会,陷入了长期的低迷和失落。
在写这篇文章时,36氪联系到的标注者大部分已经辞职。
一名女孩说,她工作两个月了,工资还不到3000元。
参与标注者:本科生% 过去,数据标注的门槛较低。
在山东、山西、河南、贵州等地,不少数据标注公司招募了大量廉价劳动力。
最常见的包括母亲、残疾人和职业学校学生。
只要掌握了计算机的基本操作,就可以进入这个行业。
大模型时代,数据标注的洗牌和淘汰正在候选者之间悄然发生。
研究人员发现,训练数据的质量对模型性能有非常大的影响。
与数据量相比,数据质量越高,模型的改进效果越明显。
为了控制数据质量,一些AI公司建立了自己的标注团队。
第一步是提高行业准入门槛。
最明显的就是注释者的学历开始滚动。
今年4月,一家领先的大型模型制造商建立了数据标注库,首批招募的标注员本科学历比例达到10%。
该公司负责人解释说,大模型数据涉及知识面广、评价标准复杂,极大考验标注者的语言理解和逻辑推理能力。
小王刚刚大学毕业,回老家找工作时,无意间看到了这个数据标注基地的招聘。
于是他参加了面试并顺利通过了。
基地给他发来了一份三十万字的培训材料。
只有通过培训考试,才能正式上岗。
注释者每天都会处理问题。
新人每天会被问到 40 个问题,而有经验的工人每天会被问到 70-80 个问题。
后端系统给大家分发问题,大部分是真实用户和大模型之间的对话记录。
用户的问题来自世界各地,而且更加离奇:这三款手机哪一款更好?哪个鸡蛋更好,或者扭蛋?成功人士的标准是什么?林黛玉为何要与骨魔战斗? 一个大的模型会有很多答案,小王的工作就是阅读每个答案,挑出错误,并根据质量一一评分。
5分是满分,1分*,3分以下的答案需要划分错误类型。
。
如果答案与问题不符,则直接给予*分。
若遇到敏感问题,不予评分,判定为“其他”。
排序、打分、评估,这些稍微复杂的标注步骤正是所谓的RLHF(Reinforcement Learning from Human Feedbach,即来自人类反馈的强化学习)。
目的是不断使大模型与人类的价值观和思维方式保持一致。
更可用。
OpenAI在训练ChatGPT的过程中使用了RLHF,并取得了显着的效果。
与过去的数据标注相比,大型模型的标注规则更加主观。
当算法工程师面试标注员的时候,他会问对方这样一个问题:“如果你是一个企业领导,面对四种类型的员工:孙悟空、猪八戒、唐僧、沙僧,你会选择谁?聘请?”没有标准。
答案是,他说。
此类题旨在测试标注者是否具有逻辑思维能力。
行业对人才的需求变得迫切。
一家名为凯王数据的初创公司正在与大学合作,培养大量大学生标注员。
CEO于旭表示,公司去年建设了“凯旺数据学院”,已经培训了50多家学校、100多名学生从事数据标注。
小王在对大模型的答案进行评分时,往往需要做一些事实核查,工作量完全取决于运气。
有一次我遇到一个问题:宝马3系和奔驰C系哪个更好?大模型分别列出了两辆车的40个参数,每个参数都需要小王检查。
这个问题问了他半个小时。
做了一段时间的标注后,小王发现自己的分数很少超过3分。
“人工智能的反应不足以让我感到非常满意或出色。
”他记得有一个问题是“如果蓝牙耳机坏了,我应该去看牙医还是耳机制造商?”明明是钓鱼问题,但AI的回答却让他眼睛一亮。
“上面说的是去牙医那里修复,而不是去医院。
” 小王对这份工作很满意。
每月底薪1000元,全勤奖金1万元,住房补贴1万元。
考虑到业绩,他每月可以拿到1万元。
他说,收入在当地算得上高于平均水平。
他也把头发挽起来,两人坐在相邻的工位上。
和小王同时训练的大学生约有二十名左右。
两天之内,他们就几乎全部消失了,只剩下两三个人。
不过我们不用担心公司,这里永远不会缺少大学生。
某CTO向36氪透露真相:去看看目前大学生就业情况。
最想消除人工标注的不是AI。
必须承认,关于数据标注的报道有很多。
人们的共识包括,这项工作是“互联网的流水线”,长期很难做,人工标注最终会被人工智能取代。
。
在过去的一个月里,我们花了很多时间与算法工程师和AI公司进行交流。
虽然上述共识还没有被刷新,但可以隐约感觉到,最想消灭人类劳动的东西或许不是AI。
在AI真正采取行动之前,那些掌握最新技术的人就已经举起了镰刀。
在技??术世界中,数据的重要性怎么强调都不为过。
算法工程师小段表示,AI业务如果没有标签数据,写得再好算法也会支离破碎。
标记的数据越多越好。
收集所有标记者的羊毛是一件肯定会成功的事情。
有时,算法可以在一小时内完成标注者花费四五天的数据。
小段在一家大型互联网公司工作。
该部门预算充足,并拥有数名全职注释员。
“我们尽量不让注释者闲着。
”他说,“领导会看周报,如果他们觉得任务不多,我们就给他们分配更多的任务。
”有注释者告诉36氪,虽然同事程序员在会上表示,每种工种都有其价值,但还是不经意间流露出一丝轻蔑。
“当然,这群人本身就是技术型的。
”注释者自我安慰道。
技术的进步远远快于所有人的预期。
在大模型时代,数据质量将直接影响模型的性能。
明白了这一点,一些人工智能公司就毫不犹豫地告别了数据标注外包商。
“我们得到的数据质量太差,基本上没有什么用处。
”一家人工智能公司的 CTO 表示。
他们的核心业务是AI生成视频,他们开发了自主开发的模型,可以生成无限量的电商产品视频。
为了训练模型,他们专门招募了50名大学生来做数据标注。
在医疗、金融、计算机等专业领域,大学生也很难被信任。
国内某大型互联网公司除了自建标注基地外,还聘请专业人员进行标注。
虽然标注行业的专业人士比例还很小,但他们的作用却相当明显。
比如,把暂停社保缴费的问题留给熟悉政府文件的专业人士,最让人放心。
一个公开的秘密是,早在ChatGPT流行之前,OpenAI就组织了十几名博士生进行“标记”。
八年间,OpenAI 仅仅训练模型就花费了 10 亿美元。
今年5月,美国一家数据公司开始招聘特定领域的专业人士。
这些资深注释者的报酬已经不再是便宜的了。
例如,标注法律数据的时薪为45美元,诗歌的时薪为25美元。
然而,在一些AI公司眼中,无论是蓝领工人还是白领工人,他们都希望节省成本。
在与这些企业沟通时,36氪经常听到一个词:降低成本,提高效率。
最常见的方法是利用AI进行自动标注。
某数据公司表示,自动化标注比例已达到70%以上。
算法工程师小李和他的同事正在做一个更前沿的尝试:只要用真实数据的一小部分作为模型,通过生成式AI技术和一系列算法,就可以合成高质量的训练数据。
换句话说,根本不需要任何人。
“我们合成数据的价格比手动注释便宜一点。
”小李说道。
合成数据目前主要应用于自动驾驶和机器人领域。
小李说,当ChatGPT出来时,他意识到标注的数据可能不起作用,最终必须使用合成数据。
OpenAI创始人Sam Altman也有类似的观点:“合成数据是解决大模型数据短缺的最有效方法。
” 初创公司光轮智能主要生产自动驾驶和机器人领域的合成数据。
“自动化标签的最终结果是不标签。
”首席执行官谢晨说。
“大多数标签公司都没有长远的眼光。
”谢晨向36氪提到,团队的一位同事之前在一家主机厂做过自动化贴标,并解决了这个问题。
更复杂的 4D-BEV 注释。
这是业界唯一以时间作为第四纬度在3D空间进行标注的标注工具,以提高自动驾驶系统的性能。

今年他决定放弃自动化标注,主动找到谢晨,最终加入了Nimbus Intelligence。
这位同事就是小李。
他表示,生成式AI的出现一度让他非常焦虑,但看到合成数据后,他又变得兴奋起来。
他的工作目标之一是“取代这个行业的人(译注)”,但他又不好意思肯定地说,“可能是短期的,也许一两年。
”最后,让我们回到注释者的世界。
。
科技飞速发展带来的焦虑在这里几乎看不见。
只有琐碎的、重复的烦恼,和一些天真的幻想。
大学生小王仍在家乡训练大模特。
最近我们聊天的时候,他说这份工作是进入人工智能领域的一个机会。
公司给他们设定的晋升路径是从注释员到质检员、培训师,再到主管,最后到项目经理。
小王的目标是成为一名主管,然后跳槽到更接近AI的职位。
到底是什么,他还不知道。
与雄心勃勃的小王相比,大多数标注者对人工智能兴趣不大。
一位女孩解释道:“我不太关注高科技。
”她已经做标记两年了,已经是高级员工了。
她最近晋升为质量检验员。
对她来说,注释工作简单稳定,“没有精神摩擦”,偶尔还能钓到鱼。
在人工智能搅动科技界的这一年,她的生活却平静如水。
少数变化之一是在公司提供的注释工具中添加了对话机器人。
该公司告诉大家,如果在标注过程中遇到不懂的问题,直接问机器人即可,节省时间。
效率快速提升。
她告诉36氪,以前一天最多能做五六百盒,现在可以做七百多盒。
“多亏了机器人,”她说。
没人还告诉她,它的名字叫ChatGPT。
“应受访者要求,文中部分人物采用化名。
36氪作者邓安妮塔也对文章做出了贡献。
” 【本文由投资界合作伙伴36氪授权发布。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-06
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态