首页 > 科技未来 > 内容

数据标注员，陷入大模型

发布于：2024-06-18 编辑：匿名来源：网络

在一家大型互联网公司担任数据标注员的小颜，在公司里常常感到孤立。

小颜的工作站旁边就是经理和程序员的产品。

他们可以享受同样的福利：同样的工作证、苹果电脑；他们可以随时去健身房或去太空舱睡觉。

但小颜能感觉到，作为一名数据标注者，她和其他同事属于“两个世界”。

虽然我们是一个团队，但每天早会，没人都会叫来注释员，小颜只能在门外偷偷看。

有一次，有人带来了一车台灯，这是团队正在开发的人工智能产品的原型。

程序员夫妇围在它周围，非常兴奋，并把它拿在手里把玩。

注释者们坐在自己的工作站上，忙着自己的事，没有发生任何意外。

“他们不知道该产品，它是根据标签数据制成的。

”当他加入公司时，小颜的公司正在开发一款教育人工智能产品，需要标记大量数据来训练人工智能。

该公司购买了堆积如山的中小学学习题册。

小颜的工作就是给每个问题拍照，然后在电脑上为这些问题画框并做注释。

同样为人工智能工作的程序员显然意识到自己工作的价值，享受着算法不断进步带来的乐趣，但很少有注释者觉得是自己的劳动创造了人工智能。

人工智能的进步离不开数据标注。

近年来自动驾驶的发展带动了数据标注市场。

据德勤报告显示，2020年自动驾驶领域的标签需求占整个AI下游应用的38%，预计到2020年这一比例将上升至52%。

为数据注释行业增添了动力。

大量基于大模型训练场景的订单正飞向数据标注公司。

看来数据标注这一枯燥的业务再次被注入了活力。

一些科技公司走得更远，正在尝试利用AI自动合成数据进行AI训练。

合成数据是基于少量真实数据，由AI无限生成且不需要标注，而不是依赖人工标注。

在自动驾驶领域，合成数据可以覆盖一些极端的路况，例如行人突然闯入道路。

在他们的想象中，未来合成数据将取代人工标注。

没有技术、单纯依靠人力的贴标企业将逐步被淘汰。

一项数据显示，国外人工智能使用的基础数据70%是合成数据，这条路径正在被验证。

对于数量庞大的数据标注者来说，以上并不是什么好消息。

不过，36氪联系到的一些标注者仍然不知道ChatGPT是什么，他们的反应就像第一次听说这个术语一样。

小颜说，标记者是一条随时可以切断的尾巴。

最大的悬念，就是这把刀何时彻底落下。

训练机器的注释者感觉更像是机器。

小河专业是英语系，大四时在一家大工厂实习。

第一天她就去上班了。

办公室在一栋办公楼里。

宽敞干净，完全符合她对互联网公司的想象。

没过多久，她就发现，面试时了解到的工作内容——“对公司语音数据进行整理和分类”——其实就是数据标注。

后来，小荷坦言，如果她知道这是开始为AI工作，她会立即离开。

团里有6名实习生，都是某名牌大学外语系的学生。

每天都有女队长分配任务。

有时是一堆英文音标，小河的任务就是区分英式发音和美式发音；有时它是一个Excel，点击它，你就会看到到处都是数据。

如果你向下滚动，有超过 10,000 个项目。

“感觉就像爬山一样。

”小荷说道。

我做的最多的“项目”是中学生口语批注。

注释者习惯于将工作视为项目，一个又一个项目。

小河每天听两段带有浓重口音的录音，每段两分钟。

如果你听到的是一般性问题，则得 1 分；如果你听到一个特殊问题，则得分 2；如果都听不到，则给0分。

为了防止泄密，他只能在办公室使用有线耳机。

小河的耳朵很痛，他感到“不由自主??地烦躁”。

她经常听到录音中使用脏话。

有些孩子没说几句话就开始咒骂。

还有一次，我们在做地图导航项目时，有人忍不住在录音中咒骂。

“我不知道为什么有些人如此愤怒。

”小河说你不能太当真。

你只能把这段录音标记为“无意义”，然后翻页继续听下一段。

几乎每个注释者都会这样描述自己：“就像一台机器”。

注释是理所当然的。

一位山东标注员表示，他做过的最难的项目就是指纹标注。

她从一个不认识的人那里得到了一堆指纹（有的还是模糊的），她需要沿着指纹的边缘一点一点地拉动框架。

“那天我回家后，一闭上眼睛就能看到满眼的指纹。

”很多项目都要求标注者严格保密，但标注者并不关心项目的目的是什么。

工作期间，贴标签者必须交出手机并将其放在墙上的挂袋中。

只有接到电话后，他们才可以取回手机。

大多数注释者都经历过从陌生到熟练、从新奇到乏味的过程。

该项目的早期阶段是最有趣的。

当时，标签规则尚未完善。

他们经常遇到有争议的地方，会互相讨论甚至争论，气氛活跃。

到了中后期，规则几乎定型，只剩下重复性、机械性的劳动，人们就会陷入一种无意义感。

一位注释者称这是一项“无需动脑筋的工作”。

上海大学教授贾文娟对数据标注进行了实地研究。

她认为数据标注不是脑力劳动或体力劳动，而是认知劳动。

“人们出售的是他们自己的认知。

”黑色幽默是，我们希望机器变得更像人类，但同时我们又让人类变得更像机器。

换句话说，抛开常识，像机器人一样思考。

而一旦标注者开始思考“我为什么要这样做”，就意味着他距离辞职已经不远了。

郑伟是一家数据标注公司的老板。

他直言留不住人。

公司只有不到20人。

新员工往往只能呆半个月。

很多人第一天来上班，第二天就下班了。

无奈之下，他只能不断降低招募条件。

最后他觉得“不是我在选择人，而是别人在选择我”。

他不知道如何留住那些离开的人。

“你留在这里会越来越好，我自己其实也不相信。

”郑专员告诉36氪。

员工流失最终让公司不堪重负，当只剩下两名注释员时，他决定解散团队。

不久之后，ChatGPT掀起了AI新浪潮。

大模型的兴起有利于数据标注，但也加剧了标注团队的内卷化。

谈到接工，小戴表示，现在市场上80-90%的标识项目单价很低，“因为中间分包商太多”，“他们都想在项目上盈利”。

价格差异，并且不想实际做这项工作。

” 。

他在众包平台做了两年标注员，今年开始创业，组建了自己的标注团队。

数据标注的利润并不高。

以自动驾驶的2D框架图为例，大公司的订单调度价格为10美分，接手工作的贴标团队每人成本为8美分。

“现在已经降到5、6分了。

”小黛说道。

他算了一笔账，如果低于8点，他就只能赔钱了。

△自动驾驶标注；来源：apen官网为了生存，小呆大部分时间都在寻找项目，闲逛在各个平台和贴吧。

项目有真有假，而且大多不靠谱。

代理商遭受了损失。

有一个项目，等了8个月钱还没到。

后来他先做兼职标注员，试标结算没有问题后，才让团队接手工作。

有一次听说平台要在半夜3点发布一批项目，就提前定了闹钟抢订单。

人员流动、单价低、回款不稳定等问题就像肿瘤一样，拖累了这个行业大多数小公司的发展。

没有哪个注释者不鄙视这份工作。

他们赚不到钱，也看不到晋升空间和发展机会，陷入了长期的低迷和失落。

在写这篇文章时，36氪联系到的标注者大部分已经辞职。

一名女孩说，她工作两个月了，工资还不到3000元。

参与标注者：本科生% 过去，数据标注的门槛较低。

在山东、山西、河南、贵州等地，不少数据标注公司招募了大量廉价劳动力。

最常见的包括母亲、残疾人和职业学校学生。

只要掌握了计算机的基本操作，就可以进入这个行业。

大模型时代，数据标注的洗牌和淘汰正在候选者之间悄然发生。

研究人员发现，训练数据的质量对模型性能有非常大的影响。

与数据量相比，数据质量越高，模型的改进效果越明显。

为了控制数据质量，一些AI公司建立了自己的标注团队。

第一步是提高行业准入门槛。

最明显的就是注释者的学历开始滚动。

今年4月，一家领先的大型模型制造商建立了数据标注库，首批招募的标注员本科学历比例达到10%。

该公司负责人解释说，大模型数据涉及知识面广、评价标准复杂，极大考验标注者的语言理解和逻辑推理能力。

小王刚刚大学毕业，回老家找工作时，无意间看到了这个数据标注基地的招聘。

于是他参加了面试并顺利通过了。

基地给他发来了一份三十万字的培训材料。

只有通过培训考试，才能正式上岗。

注释者每天都会处理问题。

新人每天会被问到 40 个问题，而有经验的工人每天会被问到 70-80 个问题。

后端系统给大家分发问题，大部分是真实用户和大模型之间的对话记录。

用户的问题来自世界各地，而且更加离奇：这三款手机哪一款更好？哪个鸡蛋更好，或者扭蛋？成功人士的标准是什么？林黛玉为何要与骨魔战斗？一个大的模型会有很多答案，小王的工作就是阅读每个答案，挑出错误，并根据质量一一评分。

5分是满分，1分*，3分以下的答案需要划分错误类型。

。

如果答案与问题不符，则直接给予*分。

若遇到敏感问题，不予评分，判定为“其他”。

排序、打分、评估，这些稍微复杂的标注步骤正是所谓的RLHF（Reinforcement Learning from Human Feedbach，即来自人类反馈的强化学习）。

目的是不断使大模型与人类的价值观和思维方式保持一致。

更可用。

OpenAI在训练ChatGPT的过程中使用了RLHF，并取得了显着的效果。

与过去的数据标注相比，大型模型的标注规则更加主观。

当算法工程师面试标注员的时候，他会问对方这样一个问题：“如果你是一个企业领导，面对四种类型的员工：孙悟空、猪八戒、唐僧、沙僧，你会选择谁？聘请？”没有标准。

答案是，他说。

此类题旨在测试标注者是否具有逻辑思维能力。

行业对人才的需求变得迫切。

一家名为凯王数据的初创公司正在与大学合作，培养大量大学生标注员。

CEO于旭表示，公司去年建设了“凯旺数据学院”，已经培训了50多家学校、100多名学生从事数据标注。

小王在对大模型的答案进行评分时，往往需要做一些事实核查，工作量完全取决于运气。

有一次我遇到一个问题：宝马3系和奔驰C系哪个更好？大模型分别列出了两辆车的40个参数，每个参数都需要小王检查。

这个问题问了他半个小时。

做了一段时间的标注后，小王发现自己的分数很少超过3分。

“人工智能的反应不足以让我感到非常满意或出色。

”他记得有一个问题是“如果蓝牙耳机坏了，我应该去看牙医还是耳机制造商？”明明是钓鱼问题，但AI的回答却让他眼睛一亮。

“上面说的是去牙医那里修复，而不是去医院。

” 小王对这份工作很满意。

每月底薪1000元，全勤奖金1万元，住房补贴1万元。

考虑到业绩，他每月可以拿到1万元。

他说，收入在当地算得上高于平均水平。

他也把头发挽起来，两人坐在相邻的工位上。

和小王同时训练的大学生约有二十名左右。

两天之内，他们就几乎全部消失了，只剩下两三个人。

不过我们不用担心公司，这里永远不会缺少大学生。

某CTO向36氪透露真相：去看看目前大学生就业情况。

最想消除人工标注的不是AI。

必须承认，关于数据标注的报道有很多。

人们的共识包括，这项工作是“互联网的流水线”，长期很难做，人工标注最终会被人工智能取代。

。

在过去的一个月里，我们花了很多时间与算法工程师和AI公司进行交流。

虽然上述共识还没有被刷新，但可以隐约感觉到，最想消灭人类劳动的东西或许不是AI。

在AI真正采取行动之前，那些掌握最新技术的人就已经举起了镰刀。

在技??术世界中，数据的重要性怎么强调都不为过。

算法工程师小段表示，AI业务如果没有标签数据，写得再好算法也会支离破碎。

标记的数据越多越好。

收集所有标记者的羊毛是一件肯定会成功的事情。

有时，算法可以在一小时内完成标注者花费四五天的数据。

小段在一家大型互联网公司工作。

该部门预算充足，并拥有数名全职注释员。

“我们尽量不让注释者闲着。

”他说，“领导会看周报，如果他们觉得任务不多，我们就给他们分配更多的任务。

”有注释者告诉36氪，虽然同事程序员在会上表示，每种工种都有其价值，但还是不经意间流露出一丝轻蔑。

“当然，这群人本身就是技术型的。

”注释者自我安慰道。

技术的进步远远快于所有人的预期。

在大模型时代，数据质量将直接影响模型的性能。

明白了这一点，一些人工智能公司就毫不犹豫地告别了数据标注外包商。

“我们得到的数据质量太差，基本上没有什么用处。

”一家人工智能公司的 CTO 表示。

他们的核心业务是AI生成视频，他们开发了自主开发的模型，可以生成无限量的电商产品视频。

为了训练模型，他们专门招募了50名大学生来做数据标注。

在医疗、金融、计算机等专业领域，大学生也很难被信任。

国内某大型互联网公司除了自建标注基地外，还聘请专业人员进行标注。

虽然标注行业的专业人士比例还很小，但他们的作用却相当明显。

比如，把暂停社保缴费的问题留给熟悉政府文件的专业人士，最让人放心。

一个公开的秘密是，早在ChatGPT流行之前，OpenAI就组织了十几名博士生进行“标记”。

八年间，OpenAI 仅仅训练模型就花费了 10 亿美元。

今年5月，美国一家数据公司开始招聘特定领域的专业人士。

这些资深注释者的报酬已经不再是便宜的了。

例如，标注法律数据的时薪为45美元，诗歌的时薪为25美元。

然而，在一些AI公司眼中，无论是蓝领工人还是白领工人，他们都希望节省成本。

在与这些企业沟通时，36氪经常听到一个词：降低成本，提高效率。

最常见的方法是利用AI进行自动标注。

某数据公司表示，自动化标注比例已达到70%以上。

算法工程师小李和他的同事正在做一个更前沿的尝试：只要用真实数据的一小部分作为模型，通过生成式AI技术和一系列算法，就可以合成高质量的训练数据。

换句话说，根本不需要任何人。

“我们合成数据的价格比手动注释便宜一点。

”小李说道。

合成数据目前主要应用于自动驾驶和机器人领域。

小李说，当ChatGPT出来时，他意识到标注的数据可能不起作用，最终必须使用合成数据。

OpenAI创始人Sam Altman也有类似的观点：“合成数据是解决大模型数据短缺的最有效方法。

” 初创公司光轮智能主要生产自动驾驶和机器人领域的合成数据。

“自动化标签的最终结果是不标签。

”首席执行官谢晨说。

“大多数标签公司都没有长远的眼光。

”谢晨向36氪提到，团队的一位同事之前在一家主机厂做过自动化贴标，并解决了这个问题。

更复杂的 4D-BEV 注释。

这是业界唯一以时间作为第四纬度在3D空间进行标注的标注工具，以提高自动驾驶系统的性能。

数据标注员，陷入大模型

今年他决定放弃自动化标注，主动找到谢晨，最终加入了Nimbus Intelligence。

这位同事就是小李。

他表示，生成式AI的出现一度让他非常焦虑，但看到合成数据后，他又变得兴奋起来。

他的工作目标之一是“取代这个行业的人（译注）”，但他又不好意思肯定地说，“可能是短期的，也许一两年。

”最后，让我们回到注释者的世界。

。

科技飞速发展带来的焦虑在这里几乎看不见。

只有琐碎的、重复的烦恼，和一些天真的幻想。

大学生小王仍在家乡训练大模特。

最近我们聊天的时候，他说这份工作是进入人工智能领域的一个机会。

公司给他们设定的晋升路径是从注释员到质检员、培训师，再到主管，最后到项目经理。

小王的目标是成为一名主管，然后跳槽到更接近AI的职位。

到底是什么，他还不知道。

与雄心勃勃的小王相比，大多数标注者对人工智能兴趣不大。

一位女孩解释道：“我不太关注高科技。

”她已经做标记两年了，已经是高级员工了。

她最近晋升为质量检验员。

对她来说，注释工作简单稳定，“没有精神摩擦”，偶尔还能钓到鱼。

在人工智能搅动科技界的这一年，她的生活却平静如水。

少数变化之一是在公司提供的注释工具中添加了对话机器人。

该公司告诉大家，如果在标注过程中遇到不懂的问题，直接问机器人即可，节省时间。

效率快速提升。

她告诉36氪，以前一天最多能做五六百盒，现在可以做七百多盒。

“多亏了机器人，”她说。

没人还告诉她，它的名字叫ChatGPT。

“应受访者要求，文中部分人物采用化名。

36氪作者邓安妮塔也对文章做出了贡献。

” 【本文由投资界合作伙伴36氪授权发布。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

站长声明

标签：

上一篇：广东省韶关市首支县级产业基金“韶源基金”成立

下一篇：斗鱼虎牙一夜亏70亿

南方电网建鑫成功发起设立南方电网双碳绿色电力基金

投资界（ID：pedaily）据12月8日消息，近日，南方电网建鑫基金管理有限公司发起设立南方电网双碳绿色电力基金< titlesplit >投资界（ID：pedaily）。南方电网资本控股有限公司旗下子公司南方电网有限公司（以下简称“南方电网”）成功发起设立南方电网双碳绿色电力基金并参与

06-18
【每日投资事件】上市遇难半年涌现1914起并购案例

半年涌现案例A股市场掀起史上最大规模并购浪潮　　近段时间，国内资本市场掀起了轰轰烈烈的并购热潮，双汇收购美国史密斯菲尔德公司、蒙牛收购雅士利、森马收购GXG等几起大型并购案引起了市场的高度关注。事实上，在IPO长期暂停、PE生存艰难的情况下，中国资本市场的并购早已

06-18
罗永浩透露，即将完成新一轮10亿美元融资， 2016年锤子危险“复活”后

据投资界8月6日晚消息，在今天的极客公园大会上，罗永浩透露了锤子手机新一轮融资规模。 10亿元人民币左右。 “这意味着，从明年开始，我们将像一家已经进入扑克牌桌的正规手机制造商一样，每年推出高、中、低三个品类5-6款产品，成为一家正规的手机制造商。 ” ” 　　他笑着

06-17
国家中小企业发展基金第二批两只新子基金签约实施，认购规模50亿元

创造头条新闻近日，第二批第五、第六只子基金签约落地国家中小企业发展基金有限公司完成合同签订，中标子基金管理机构为深创投、联想创投，认购规模为50亿元。第二批国家中小企业发展基金新设两只子基金：中小企业发展基金深圳创业投资（新疆）有限合伙企业、中小企业发展基

06-18
vivo X Fold折叠屏体验：目前最给力的全尺寸折叠屏

“这款手机要一万多块钱了”。这是我刚拿到vivo X Fold后脑子里突然冒出来的一个想法。 ▲ 抽屉式包装，质感十足。在和同事讨论的过程中，vivo X Fold的机身质感几乎是通用的，而且有一种高端商务的感觉。 ▲ vivo X Fold给人的第一印象就是“坚固”，其次是边框的磨砂材质

06-21
阿里云创新中心正式发布“云创基金开放合作计划”

闃块噷浜戝垱鏂颁腑蹇冩寮忓彂甯冣?滀簯鍒涘熀閲戝紑鏀惧悎浣滆鍒掆?濄??2020骞?0鏈?9鏃ワ紝闃块噷浜戜簯鏍栧ぇ浼氱洓澶紑骞曘?傛湰娆″ぇ浼氫互鈥滃墠娌挎帰绱笌鎯宠薄鈥濅负涓婚锛屼細瑙佷簡浼楀閲嶈鍢夊鍜岀鎶?鐖卞ソ鑰呫??銆佷骇涓氫紮浼淬?佹姇璧勬満鏋

06-17
路透社：三星电子将合并移动和消费电子部门

12月7日，三星电子表示，公司将合并移动和消费电子部门，重点发展逻辑芯片业务。这一重大举措是这家全球最大存储芯片和智能手机制造商在副董事长李在镕 (Jay Y. Lee) 因贿赂指控于 8 月假释后发生变化的最新迹象。三星视觉显示业务负责人韩钟熙 (Han Jong-hee) 晋升为副董事

06-08
谷歌街景发现了躲藏二十年的逃犯

互联网技术这几十年的发展，引领世界进入大数据时代。人们可以轻松地找到他们想要的信息，即使是曾经生活在异国他乡的人。只在书本上见过的地名。尤其是近年来，人们的出行已经不像以前那么方便了。一些人已经开始利用街景地图开启“云出行”。街景相机拍摄的真实场景可

06-21
360财经宣布推出360水客新品牌

北京时间8月7日，金融科技平台财经正式宣布品牌升级，推出“水客”新品牌。为了应对金融科技2.0时代的新挑战，舒客去年启动了战略升级。经过与上海交通大学共建人工智能联合实验室、引入首席科学家、搭建数据AI中台、改变组织架构等一系列科技投入措施，品牌升级已成为公司

06-17
蜗牛支持IPO

A股博彩业的利润创造者王吉比特到处复制他的小而美模式。他孵化的第一款成熟“作品”青瓷游戏已经通过听证会，即将在港交所上市。。和吉比特一样，青瓷游戏仅凭借一款爆款产品就实现了业绩的飙升，但问题也由此而来——当护城河只有产品时，如何保证不断有爆款产品？当《最

06-17
华研精机为LP，联合发起新基金

投资圈——解码LP消息，9月9日，华研精机公告称，公司将以自有资金1万元作为有限公司与广州南粤合作、澳德股权投资基金管理有限公司、广州兴增股权投资合伙企业（有限合伙）、广州南粤基金集团有限公司共同发起设立广州兴科创业投资合伙企业（有限合伙）（暂定）名称，最终名

06-18
贵阳市产业发展基金招募GP（2023年第三批）

为进一步做好贵阳市产业发展基金（以下简称“产业发展基金”）子基金管理机构公选工作，充分发挥发挥市场资源配置作用和财政资金的引导和放大作用，引导社会资本投资贵阳、贵安重点产业领域，支持“省会强省”战略的实施，推动贵阳、贵安等省市的实施。贵安市“产业倍增行动

06-17