首页 > 科技未来 > 内容

数据标注员,陷入大模型

发布于:2024-06-18 编辑:匿名 来源:网络

在一家大型互联网公司担任数据标注员的小颜,在公司里常常感到孤立。

小颜的工作站旁边就是经理和程序员的产品。

他们可以享受同样的福利:同样的工作证、苹果电脑;他们可以随时去健身房或去太空舱睡觉。

但小颜能感觉到,作为一名数据标注者,她和其他同事属于“两个世界”。

虽然我们是一个团队,但每天早会,没人都会叫来注释员,小颜只能在门外偷偷看。

有一次,有人带来了一车台灯,这是团队正在开发的人工智能产品的原型。

程序员夫妇围在它周围,非常兴奋,并把它拿在手里把玩。

注释者们坐在自己的工作站上,忙着自己的事,没有发生任何意外。

“他们不知道该产品,它是根据标签数据制成的。

”当他加入公司时,小颜的公司正在开发一款教育人工智能产品,需要标记大量数据来训练人工智能。

该公司购买了堆积如山的中小学学习题册。

小颜的工作就是给每个问题拍照,然后在电脑上为这些问题画框并做注释。

同样为人工智能工作的程序员显然意识到自己工作的价值,享受着算法不断进步带来的乐趣,但很少有注释者觉得是自己的劳动创造了人工智能。

人工智能的进步离不开数据标注。

近年来自动驾驶的发展带动了数据标注市场。

据德勤报告显示,2020年自动驾驶领域的标签需求占整个AI下游应用的38%,预计到2020年这一比例将上升至52%。

为数据注释行业增添了动力。

大量基于大模型训练场景的订单正飞向数据标注公司。

看来数据标注这一枯燥的业务再次被注入了活力。

一些科技公司走得更远,正在尝试利用AI自动合成数据进行AI训练。

合成数据是基于少量真实数据,由AI无限生成且不需要标注,而不是依赖人工标注。

在自动驾驶领域,合成数据可以覆盖一些极端的路况,例如行人突然闯入道路。

在他们的想象中,未来合成数据将取代人工标注。

没有技术、单纯依靠人力的贴标企业将逐步被淘汰。

一项数据显示,国外人工智能使用的基础数据70%是合成数据,这条路径正在被验证。

对于数量庞大的数据标注者来说,以上并不是什么好消息。

不过,36氪联系到的一些标注者仍然不知道ChatGPT是什么,他们的反应就像第一次听说这个术语一样。

小颜说,标记者是一条随时可以切断的尾巴。

最大的悬念,就是这把刀何时彻底落下。

训练机器的注释者感觉更像是机器。

小河专业是英语系,大四时在一家大工厂实习。

第一天她就去上班了。

办公室在一栋办公楼里。

宽敞干净,完全符合她对互联网公司的想象。

没过多久,她就发现,面试时了解到的工作内容——“对公司语音数据进行整理和分类”——其实就是数据标注。

后来,小荷坦言,如果她知道这是开始为AI工作,她会立即离开。

团里有6名实习生,都是某名牌大学外语系的学生。

每天都有女队长分配任务。

有时是一堆英文音标,小河的任务就是区分英式发音和美式发音;有时它是一个Excel,点击它,你就会看到到处都是数据。

如果你向下滚动,有超过 10,000 个项目。

“感觉就像爬山一样。

”小荷说道。

我做的最多的“项目”是中学生口语批注。

注释者习惯于将工作视为项目,一个又一个项目。

小河每天听两段带有浓重口音的录音,每段两分钟。

如果你听到的是一般性问题,则得 1 分;如果你听到一个特殊问题,则得分 2;如果都听不到,则给0分。

为了防止泄密,他只能在办公室使用有线耳机。

小河的耳朵很痛,他感到“不由自主??地烦躁”。

她经常听到录音中使用脏话。

有些孩子没说几句话就开始咒骂。

还有一次,我们在做地图导航项目时,有人忍不住在录音中咒骂。

“我不知道为什么有些人如此愤怒。

”小河说你不能太当真。

你只能把这段录音标记为“无意义”,然后翻页继续听下一段。

几乎每个注释者都会这样描述自己:“就像一台机器”。

注释是理所当然的。

一位山东标注员表示,他做过的最难的项目就是指纹标注。

她从一个不认识的人那里得到了一堆指纹(有的还是模糊的),她需要沿着指纹的边缘一点一点地拉动框架。

“那天我回家后,一闭上眼睛就能看到满眼的指纹。

”很多项目都要求标注者严格保密,但标注者并不关心项目的目的是什么。

工作期间,贴标签者必须交出手机并将其放在墙上的挂袋中。

只有接到电话后,他们才可以取回手机。

大多数注释者都经历过从陌生到熟练、从新奇到乏味的过程。

该项目的早期阶段是最有趣的。

当时,标签规则尚未完善。

他们经常遇到有争议的地方,会互相讨论甚至争论,气氛活跃。

到了中后期,规则几乎定型,只剩下重复性、机械性的劳动,人们就会陷入一种无意义感。

一位注释者称这是一项“无需动脑筋的工作”。

上海大学教授贾文娟对数据标注进行了实地研究。

她认为数据标注不是脑力劳动或体力劳动,而是认知劳动。

“人们出售的是他们自己的认知。

”黑色幽默是,我们希望机器变得更像人类,但同时我们又让人类变得更像机器。

换句话说,抛开常识,像机器人一样思考。

而一旦标注者开始思考“我为什么要这样做”,就意味着他距离辞职已经不远了。

郑伟是一家数据标注公司的老板。

他直言留不住人。

公司只有不到20人。

新员工往往只能呆半个月。

很多人第一天来上班,第二天就下班了。

无奈之下,他只能不断降低招募条件。

最后他觉得“不是我在选择人,而是别人在选择我”。

他不知道如何留住那些离开的人。

“你留在这里会越来越好,我自己其实也不相信。

”郑专员告诉36氪。

员工流失最终让公司不堪重负,当只剩下两名注释员时,他决定解散团队。

不久之后,ChatGPT掀起了AI新浪潮。

大模型的兴起有利于数据标注,但也加剧了标注团队的内卷化。

谈到接工,小戴表示,现在市场上80-90%的标识项目单价很低,“因为中间分包商太多”,“他们都想在项目上盈利”。

价格差异,并且不想实际做这项工作。

” 。

他在众包平台做了两年标注员,今年开始创业,组建了自己的标注团队。

数据标注的利润并不高。

以自动驾驶的2D框架图为例,大公司的订单调度价格为10美分,接手工作的贴标团队每人成本为8美分。

“现在已经降到5、6分了。

”小黛说道。

他算了一笔账,如果低于8点,他就只能赔钱了。

△自动驾驶标注;来源:apen官网 为了生存,小呆大部分时间都在寻找项目,闲逛在各个平台和贴吧。

项目有真有假,而且大多不靠谱。

代理商遭受了损失。

有一个项目,等了8个月钱还没到。

后来他先做兼职标注员,试标结算没有问题后,才让团队接手工作。

有一次听说平台要在半夜3点发布一批项目,就提前定了闹钟抢订单。

人员流动、单价低、回款不稳定等问题就像肿瘤一样,拖累了这个行业大多数小公司的发展。

没有哪个注释者不鄙视这份工作。

他们赚不到钱,也看不到晋升空间和发展机会,陷入了长期的低迷和失落。

在写这篇文章时,36氪联系到的标注者大部分已经辞职。

一名女孩说,她工作两个月了,工资还不到3000元。

参与标注者:本科生% 过去,数据标注的门槛较低。

在山东、山西、河南、贵州等地,不少数据标注公司招募了大量廉价劳动力。

最常见的包括母亲、残疾人和职业学校学生。

只要掌握了计算机的基本操作,就可以进入这个行业。

大模型时代,数据标注的洗牌和淘汰正在候选者之间悄然发生。

研究人员发现,训练数据的质量对模型性能有非常大的影响。

与数据量相比,数据质量越高,模型的改进效果越明显。

为了控制数据质量,一些AI公司建立了自己的标注团队。

第一步是提高行业准入门槛。

最明显的就是注释者的学历开始滚动。

今年4月,一家领先的大型模型制造商建立了数据标注库,首批招募的标注员本科学历比例达到10%。

该公司负责人解释说,大模型数据涉及知识面广、评价标准复杂,极大考验标注者的语言理解和逻辑推理能力。

小王刚刚大学毕业,回老家找工作时,无意间看到了这个数据标注基地的招聘。

于是他参加了面试并顺利通过了。

基地给他发来了一份三十万字的培训材料。

只有通过培训考试,才能正式上岗。

注释者每天都会处理问题。

新人每天会被问到 40 个问题,而有经验的工人每天会被问到 70-80 个问题。

后端系统给大家分发问题,大部分是真实用户和大模型之间的对话记录。

用户的问题来自世界各地,而且更加离奇:这三款手机哪一款更好?哪个鸡蛋更好,或者扭蛋?成功人士的标准是什么?林黛玉为何要与骨魔战斗? 一个大的模型会有很多答案,小王的工作就是阅读每个答案,挑出错误,并根据质量一一评分。

5分是满分,1分*,3分以下的答案需要划分错误类型。

如果答案与问题不符,则直接给予*分。

若遇到敏感问题,不予评分,判定为“其他”。

排序、打分、评估,这些稍微复杂的标注步骤正是所谓的RLHF(Reinforcement Learning from Human Feedbach,即来自人类反馈的强化学习)。

目的是不断使大模型与人类的价值观和思维方式保持一致。

更可用。

OpenAI在训练ChatGPT的过程中使用了RLHF,并取得了显着的效果。

与过去的数据标注相比,大型模型的标注规则更加主观。

当算法工程师面试标注员的时候,他会问对方这样一个问题:“如果你是一个企业领导,面对四种类型的员工:孙悟空、猪八戒、唐僧、沙僧,你会选择谁?聘请?”没有标准。

答案是,他说。

此类题旨在测试标注者是否具有逻辑思维能力。

行业对人才的需求变得迫切。

一家名为凯王数据的初创公司正在与大学合作,培养大量大学生标注员。

CEO于旭表示,公司去年建设了“凯旺数据学院”,已经培训了50多家学校、100多名学生从事数据标注。

小王在对大模型的答案进行评分时,往往需要做一些事实核查,工作量完全取决于运气。

有一次我遇到一个问题:宝马3系和奔驰C系哪个更好?大模型分别列出了两辆车的40个参数,每个参数都需要小王检查。

这个问题问了他半个小时。

做了一段时间的标注后,小王发现自己的分数很少超过3分。

“人工智能的反应不足以让我感到非常满意或出色。

”他记得有一个问题是“如果蓝牙耳机坏了,我应该去看牙医还是耳机制造商?”明明是钓鱼问题,但AI的回答却让他眼睛一亮。

“上面说的是去牙医那里修复,而不是去医院。

” 小王对这份工作很满意。

每月底薪1000元,全勤奖金1万元,住房补贴1万元。

考虑到业绩,他每月可以拿到1万元。

他说,收入在当地算得上高于平均水平。

他也把头发挽起来,两人坐在相邻的工位上。

和小王同时训练的大学生约有二十名左右。

两天之内,他们就几乎全部消失了,只剩下两三个人。

不过我们不用担心公司,这里永远不会缺少大学生。

某CTO向36氪透露真相:去看看目前大学生就业情况。

最想消除人工标注的不是AI。

必须承认,关于数据标注的报道有很多。

人们的共识包括,这项工作是“互联网的流水线”,长期很难做,人工标注最终会被人工智能取代。

在过去的一个月里,我们花了很多时间与算法工程师和AI公司进行交流。

虽然上述共识还没有被刷新,但可以隐约感觉到,最想消灭人类劳动的东西或许不是AI。

在AI真正采取行动之前,那些掌握最新技术的人就已经举起了镰刀。

在技??术世界中,数据的重要性怎么强调都不为过。

算法工程师小段表示,AI业务如果没有标签数据,写得再好算法也会支离破碎。

标记的数据越多越好。

收集所有标记者的羊毛是一件肯定会成功的事情。

有时,算法可以在一小时内完成标注者花费四五天的数据。

小段在一家大型互联网公司工作。

该部门预算充足,并拥有数名全职注释员。

“我们尽量不让注释者闲着。

”他说,“领导会看周报,如果他们觉得任务不多,我们就给他们分配更多的任务。

”有注释者告诉36氪,虽然同事程序员在会上表示,每种工种都有其价值,但还是不经意间流露出一丝轻蔑。

“当然,这群人本身就是技术型的。

”注释者自我安慰道。

技术的进步远远快于所有人的预期。

在大模型时代,数据质量将直接影响模型的性能。

明白了这一点,一些人工智能公司就毫不犹豫地告别了数据标注外包商。

“我们得到的数据质量太差,基本上没有什么用处。

”一家人工智能公司的 CTO 表示。

他们的核心业务是AI生成视频,他们开发了自主开发的模型,可以生成无限量的电商产品视频。

为了训练模型,他们专门招募了50名大学生来做数据标注。

在医疗、金融、计算机等专业领域,大学生也很难被信任。

国内某大型互联网公司除了自建标注基地外,还聘请专业人员进行标注。

虽然标注行业的专业人士比例还很小,但他们的作用却相当明显。

比如,把暂停社保缴费的问题留给熟悉政府文件的专业人士,最让人放心。

一个公开的秘密是,早在ChatGPT流行之前,OpenAI就组织了十几名博士生进行“标记”。

八年间,OpenAI 仅仅训练模型就花费了 10 亿美元。

今年5月,美国一家数据公司开始招聘特定领域的专业人士。

这些资深注释者的报酬已经不再是便宜的了。

例如,标注法律数据的时薪为45美元,诗歌的时薪为25美元。

然而,在一些AI公司眼中,无论是蓝领工人还是白领工人,他们都希望节省成本。

在与这些企业沟通时,36氪经常听到一个词:降低成本,提高效率。

最常见的方法是利用AI进行自动标注。

某数据公司表示,自动化标注比例已达到70%以上。

算法工程师小李和他的同事正在做一个更前沿的尝试:只要用真实数据的一小部分作为模型,通过生成式AI技术和一系列算法,就可以合成高质量的训练数据。

换句话说,根本不需要任何人。

“我们合成数据的价格比手动注释便宜一点。

”小李说道。

合成数据目前主要应用于自动驾驶和机器人领域。

小李说,当ChatGPT出来时,他意识到标注的数据可能不起作用,最终必须使用合成数据。

OpenAI创始人Sam Altman也有类似的观点:“合成数据是解决大模型数据短缺的最有效方法。

” 初创公司光轮智能主要生产自动驾驶和机器人领域的合成数据。

“自动化标签的最终结果是不标签。

”首席执行官谢晨说。

“大多数标签公司都没有长远的眼光。

”谢晨向36氪提到,团队的一位同事之前在一家主机厂做过自动化贴标,并解决了这个问题。

更复杂的 4D-BEV 注释。

这是业界唯一以时间作为第四纬度在3D空间进行标注的标注工具,以提高自动驾驶系统的性能。

数据标注员,陷入大模型

今年他决定放弃自动化标注,主动找到谢晨,最终加入了Nimbus Intelligence。

这位同事就是小李。

他表示,生成式AI的出现一度让他非常焦虑,但看到合成数据后,他又变得兴奋起来。

他的工作目标之一是“取代这个行业的人(译注)”,但他又不好意思肯定地说,“可能是短期的,也许一两年。

”最后,让我们回到注释者的世界。

科技飞速发展带来的焦虑在这里几乎看不见。

只有琐碎的、重复的烦恼,和一些天真的幻想。

大学生小王仍在家乡训练大模特。

最近我们聊天的时候,他说这份工作是进入人工智能领域的一个机会。

公司给他们设定的晋升路径是从注释员到质检员、培训师,再到主管,最后到项目经理。

小王的目标是成为一名主管,然后跳槽到更接近AI的职位。

到底是什么,他还不知道。

与雄心勃勃的小王相比,大多数标注者对人工智能兴趣不大。

一位女孩解释道:“我不太关注高科技。

”她已经做标记两年了,已经是高级员工了。

她最近晋升为质量检验员。

对她来说,注释工作简单稳定,“没有精神摩擦”,偶尔还能钓到鱼。

在人工智能搅动科技界的这一年,她的生活却平静如水。

少数变化之一是在公司提供的注释工具中添加了对话机器人。

该公司告诉大家,如果在标注过程中遇到不懂的问题,直接问机器人即可,节省时间。

效率快速提升。

她告诉36氪,以前一天最多能做五六百盒,现在可以做七百多盒。

“多亏了机器人,”她说。

没人还告诉她,它的名字叫ChatGPT。

“应受访者要求,文中部分人物采用化名。

36氪作者邓安妮塔也对文章做出了贡献。

” 【本文由投资界合作伙伴36氪授权发布。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

数据标注员,陷入大模型

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 开心科技完成数千万元Pre-A轮融资,由奇安投资

    开心科技完成数千万元Pre-A轮融资,由奇安投资

    投资圈(ID:pedaily)领投 据5月13日消息,上海开心信息技术有限公司(以下简称“开心”)开心科技(简称“开心科技”)今日正式宣布完成数千万元Pre-A轮融资。 据介绍,本轮融资由奇安投资领投,盈鑫资本、老股东赤星创投跟投。 钛金资本为本轮独家合作伙伴。 开心科技始于

    06-17

  • 四川长虹:董事会审议通过子公司长虹美菱在北京证券交易所上市议案

    四川长虹:董事会审议通过子公司长虹美菱在北京证券交易所上市议案

    四川长虹公告董事会审议通过《关于下属子公司长虹美菱股份有限公司之控股子公司向不特定合格投资者公开发行股票并在北京证券交易所上市的议案》。

    06-18

  • 企业视频处理SaaS平台牛利智能获1200万元天使轮融资

    企业视频处理SaaS平台牛利智能获1200万元天使轮融资

    据投资界10月12日消息,据36氪报道,牛利智能物联网科技(杭州)有限公司(以下简称“牛利智能”) “牛利智能”)近日完成万元天使轮融资。 本轮投资方为普华资本和穗臻投资。 七牛云前高管副总裁杜江华加入牛利智成为董事长,创始人李索天继续担任公司首席执行官。 本轮融资

    06-17

  • 比特大陆为台积电带来10万颗芯片订单

    比特大陆为台积电带来10万颗芯片订单

    新年伊始,台积电就收到了来自中国的10万颗高速计算(HPC)芯片的紧急订单。 市场猜测来自比特大陆。 台积电董事长张忠谋曾透露,一年前他对比特币的概念还不是很清楚,但现在他从他们(台积电)那里购买了很多晶圆;他提到的两位来自北京的年轻人是比特大陆的创始人兼首席执

    06-06

  • 亦诺微医药完成1000万美元B+轮融资

    亦诺微医药完成1000万美元B+轮融资

    据投资界消息,亦诺微医药近日完成1万美元B+轮融资,投资方为上海医药。 公开资料显示,深圳市亦诺微医药科技有限公司成立于2018年5月18日,公司主要研发疱疹溶瘤病毒免疫治疗和靶向治疗创新药物,拥有5大产品线,覆盖所有肿瘤。 分别是:1)用于瘤内注射、单药及联合治疗多

    06-17

  • 中泰科技完成近亿元A轮融资,浙江基金、辰涛资本、中盛科技等纷纷出手,

    中泰科技完成近亿元A轮融资,浙江基金、辰涛资本、中盛科技等纷纷出手,

    投资界(ID:pedaily)4月20日消息,中泰科技近期完成近亿元A轮融资。 人民币融资,本轮融资将用于LNG和液氢储运领域的技术和产品研发、产业实施和人才储备。 由浙江能源基金、辰涛资本、众盛科技、智维管理等共同投资,老股东苏州国信持续加大投资力度,将有力助力众泰科技加

    06-18

  • 48小时AI极限创新:小创业者基于阿里云计算构建AI新世界 - Create@AI创客son

    48小时AI极限创新:小创业者基于阿里云计算构建AI新世界 - Create@AI创客son

    AI时代正在加速发展。 去年,ChatGPT掀起了新一波人工智能热潮。 今年,以LLM(大语言模型)为Agents核心控制器的理念正在开启人们对人工智能的想象,催生又一轮创新创业,揭示“重塑未来”的新可能性。 走在潮流前沿的全球领先云厂商阿里云以“打造AI代理,搭建大模型与场景

    06-18

  • 【创业24小时】2023年4月26日

    【创业24小时】2023年4月26日

    投融资昨天,国内市场共发生12起投资披露事件,其中先进制造4起(中科卓尔、欧世盛、智勤仪器、吴越航科),企业3起服务案例(科瓦科技、西湖智能、臻翔科技)、农业案例1个(微米生物)、金融案例1个(鑫禧旺)、汽车交通案例1个(盛起科技)、源石石(万向科技)1个、传统制

    06-18

  • FDA重启JunoCAR-T项目,未来真的会不再谈论癌症吗?

    FDA重启JunoCAR-T项目,未来真的会不再谈论癌症吗?

    今日,Juno宣布FDA已批准其重启抗癌药物JCAR的II期临床试验。 等等,再来一次?事实上,上周五Juno身上发生了一件大事。 在他们的二期临床试验中,三名患者死亡……这直接导致FDA叫停了Juno的实验。 当天,Juno股价下跌了26.7%……事件发生后,Juno迅速进行了分析研究,并得到

    06-17

  • 95后北大男生卖衣服:一年3亿, B站刚刚投资了

    95后北大男生卖衣服:一年3亿, B站刚刚投资了

    B站,悄悄投资了一个中性服装品牌。 投资界获悉,伯喜(北京)文化传媒有限公司发生工商变更,哔哩哔哩关联公司上海哔哩哔哩科技有限公司新增股东,拥有股权比例为4.9%。 通过天眼查发现,该公司运营着一个国货新潮品牌——伯喜Bosie,其背后浮现五原资本、元生资本、金沙江创

    06-17

  • 【融资24小时】2022年10月31日投融资事件汇总及明细

    【融资24小时】2022年10月31日投融资事件汇总及明细

    今日国内市场共发生14起投资披露事件,其中先进制造8起(盛翔科技、舜华锂业、罕王半导体、昆天新能源、友基软件、泰晶科技、中科基础、耀明半导体)、娱乐传媒(酱豆MCN)1个案例、教育(一学堂)1个案例、农业(冠苗科技)1个案例、医疗健康1个案例(北海生物)、电商零售案

    06-17

  • 用新一代热管理加热技术推进新能源汽车,海姆霍兹获中国科技之星数千万A+轮融资

    用新一代热管理加热技术推进新能源汽车,海姆霍兹获中国科技之星数千万A+轮融资

    投资界9月17日消息,海姆霍兹开发商、制造商新能源汽车传热传动系统Hotz近日宣布,已于今年8月完成中科创兴投资的数千万元A+轮融资。 据悉,这是海姆霍兹今年获得的第二轮融资。 之前的投资人是国科嘉禾。 本轮融资将主要用于新工厂产能扩张和新产品研发。 中科创兴投资经理赵

    06-17