微信上出现新的等级系统! 视频号直播的新入口、新关卡能否让更多人在直播间打赏?
06-21
“平均月薪2万,本科以上可以直接进入百度字节。
”年底有些冷清的招聘市场在短短一周内突然出现。
大量“AI数据标注员”职位已经创建并正在积极招聘中。
根据“自我象限”搜索,这些职位不仅包括百度、字节跳动、京东、滴滴、美团等“梦工厂”,而且月薪十分抢眼,从1万到2万元不等,而且发布时间很短,从1周到1个月不等。
除了新增岗位之外,岗位招聘显然也十分紧迫。
招聘软件显示,HR人员异常活跃,几乎24小时在线。
平均每天的回复次数在十多次,而且每隔几分钟就回复一次。
“最近,一上线,人工智能数据标注员招聘的消息就疯狂、反复地出现。
”许多正在找工作的人向【自我象限】反映,“上次我这么疯狂地打招呼,感觉主播还在招人。
” ▲图源Boss直招截图 招聘火爆,让人很难不想起大厂之间的模特大战。
不过,根据《自我象限》观察,“AI数据标注员”的招聘并不是由这些大公司直接办理,而是通过猎头公司办理。
职位名称也五花八门,有“数据标注”、“AI词汇编辑”、“数据标注分析师”、“标注员”、“AI训练师”等。
虽然名称不同,但这些职位的功能描述非常相似。
据招聘软件信息显示,很大一部分职位与目前流行的大车型有关。
数据注释者的日常工作包括大型模型。
编辑校对、大模型的数据标注管理、大模型的内容质量评估等。
▲图片来源Boss直聘截图“子象限”咨询了几位招聘HR,“工作的主要内容是对大模型的分析判断”闻心一言大模型答题结果,工作地点为百度科技园。
”有猎头回复道。
高薪、挂大车型、被大工厂抢……有求职者看到了机会,表示,“大车型的趋势会带动新一批大工厂的人扎根,普通人还有机会吗?”人们?”但事实上,工期紧、任务重的岗位招聘要求并不低。
基本学历要求本科学历,学士、硕士学位优先。
具有语言学、汉语信息处理、计算语言学、文学等相关专业背景。
还需要了解一些人工智能技术的原理。
花椒科技告诉我们,基本的面试流程是“简历初筛——发送笔试题——一轮面试通过笔试——直接发送offer——培训”。
在学历方面,猎头强调“一定是书本,/优先”。
有着严格的准入门槛,招聘软件上神秘的“AI数据标注器”背后,隐藏着一盘大厂的大型模型棋局。
我是一名大模特的“审查员”,月薪2万。
经过一个多月的面试,中文系毕业的罗文(化名)最终敲定了百度文心一言的AI数据标注员职位。
连她自己都不敢相信,一个纯粹的技术新手的日常生活,竟然是在给大型模型当“审查员”。
“毕业三年后,我对AI毫无经验,转行后薪资涨幅接近50%,月薪在9k-15k左右。
”罗文告诉我们。
坐在两台电脑前,罗文每天的主要任务有两点:一是做题,直接对大模型进行“填鸭式”教育;二是做题,直接对大模型进行“填鸭式”教育;另一种是充当闻心一言的“法官”,判断给出的答案对与否、好与坏。
所谓“临时抱佛脚”,就是把写好的答案强行喂给大模型。
这样做的好处是不会出现来自数据源的错误,从而提高大模型的训练效果。
罗文告诉《自我象限》,她做过数学题、常识题、问答题,但这还不够。
“理论上是越专业越好,比如我擅长文学,那么我就会专攻文学题,我同事的专业是医学,所以就考了医学题。
”罗文说道。
罗文的说法得到了验证。
一些社交平台上曾有人发帖称,“急需招聘金融人才。
文馨一句话回答问题是有报酬的。
每天有30多道题,每题价格1.5-2.4元。
” ▲图片来源社交媒体平台小红书截图 另一份工作是给大模特当“老师”。
就像学生考试一样,大模型每天都会生成各种问题的答案,罗文需要担当老师和评委的角色,它生成的答案是否与问题一致,如果遇到开放式问题,答案是否正确。
没有标准化答案的,比如论文,你需要判断答案的质量,比如系统会随机给你一组数据,包括1个问题和3个答案,罗文需要先标记什么类型。
问题属于,然后对三个答案进行评分和排名,分数范围是0-5分,如果分数低于3分,必须注明具体原因,例如“答案不是问题所问的内容”。
(0分)”、“严重跑题(1分)”、“存在逻辑问题和事实错误。
如果比例较小,给2分”等。
这项工作虽然看起来不难,但却极其重要,甚至可以直接从外包到大工厂。
”上述猎头表示,“虽然合同是与我们的猎头,还有六分之一的机会成为全职员工,加入百度集团。
”这或许也是严格控制学历的原因。
▲图源Boss直聘截图 为此,“子象限”还了解到,由于百度地图的数据标注,存在稳定的地图业务需求以及自动驾驶模型和算法模型的训练需求,因此对数据的质量要求注释更高。
高,我们确实建立了专门的数据标注团队。
市场对“罗文”的需求并不局限于大型模特公司。
据《自我象限》统计,目前市场上的数据标注岗位大致分为两类。
一种是基于NLP(自然语言)的。
百度、字节跳动、京东、美团等多家大型模型科技公司纷纷为其大型模型寻找人工数据训练师。
这又分为几个细分方向,比如数据分析、大模型生成结果判定、辅助大模型逻辑推理等。
另一个方向是CV(图像),这个方向已经存在很长时间了。
人们比较熟悉的是“2D拉框”和“3D拉框”,主要满足滴滴、海默、青州智航等车企的需求,智能驾驶业务提供图像数据质量检测和标注辅助。
▲图片来源Boss直聘截图 “自我象限”观察发现,11月是NLP方向数据标注的转折点。
此前,百度、京东等各大公司无论是校招还是社招,都只开设了很少甚至没有。
AI数据标注职位,招聘软件只是零星地开放实习生职位。
通常,学历没有上限,大学学位有上限。
一批岗位需求毫无征兆地突然出现,可能与大型模型厂商研发受阻有关。
多位业内人士向《自我象限》透露,截至目前,国产大型模型的水平可能只能达到GPT-3.5水平,发展的核心仍然是数据质量问题。
一方面国外OpenAI推出一系列激进举措,逼近GPT-5,另一方面国内企业高呼“要落地”“要用大模型”。
在双重压力下,他们再次使用了“人海战术”。
技术研发水平不够,需要人工能力来弥补。
国内大型模型厂商已经开始招募“AI数据标注员”,为大模型能力的“飞升”加油。
大厂的标签既精确又粗糙,“割韭菜”。
事实上,数据标注并不是一个新鲜事物,它已经存在很长时间了。
以前的形式是粗打标,主要表现为“画盒子”,但现在粗打标发展得很混乱:一是以前大工厂多采用众包打标平台,工单分散,人员不专业,导致打标质量差。
不;其次,随着大型机型的推进,粗打标日益不足,精细打标的地位急剧上升。
针对粗打标和精打标的区别,一位大厂的员工解释道:“一般厂家的外包团队都可以做打标,但他们是按照定义的规则进行打标,如果出现规则之外的数据,合格率就会下降。
”高的情况来来回回,但这是由工程师团队完成的,尤其是自动驾驶和辅助驾驶返回的数据,他们知道背后的原理,可能不会按照它来标记。
传统的思路,而是会标注解决问题的思路,可能需要突破之前建立的标注规则,这样标注的数据质量会更高。
”大机型的爆款,也造就了粗犷标签的“新钱风潮”。
目前,粗标求职职位已从招聘软件转移至快手等短视频平台。
以快手为例。
求职的受欢迎程度与快递员一样高。
大量数据显示,已有企业入驻快手,覆盖京津冀、长三角、珠三角地区。
▲图片来源快手截图 据《紫象限》报道,快手旗下直播招聘业务“快拼”在发布会上特别提到:“解决数据标记工种线下招聘难的问题,有核心上诉问题很少。
” 快手不折不扣地提供了从公司资质审核、流量支持、公司推荐到数据标注职业晋升的支持。
《自我象限》注意到,在快手官方招聘直播间里,有时会全天不间断地播放带有相关数据标签的求职信息。
某种程度上,这也成为一些数据标注公司的“智慧之剑”。
招聘过程中,宣传毫不含糊,“不需要学历,马上就能学会,连小学生都会做”、“拉个盒子贴个标签,半毛钱”、“拉一元钱”。
,一元钱,月收入洒水,只要你手速够快。
”这是极其夸张的说法。
但事实是怎样的呢?一万块钱这么容易就能拿到吗? 为了探究真伪,“自我象限”报名并联系了快手一家热门数据标注公司。
该公司声称已直接与比亚迪、联安塔、小鹏汽车、特斯拉等车企签订合同,获取一手数据任务,并出示了大量证书和凭证以强调其正规性。
加入后的主要任务是领取任务包、画框、对图片进行注释和标注。

▲总结一下图片来源微信截图,有几个基本点:镜架是计件计算的,一镜架的价格是10毛钱到15毛钱;第一个月按周计算工资,第二个月后按月计算工资;新手小技巧 白需要提前缴纳1万元培训费,一年内累计工资达到1万元才能退还;平均需要大约 7 天的学习和训练才能开始执行任务;分为兼职和全职,兼职按框架计算,全职线下工作,免费提供住宿;在展示的员工薪资截图中,月薪从1000元到1000元不等。
然而,在黑猫投诉平台上,上述企业却成为数据标注投诉的重灾区。
一些抱怨的用户的经历与我们的经历相符。
根据用户反馈,投诉主要集中在以下问题: *、如果不会拉框,需要提前缴纳1万元的费用,如果做拉框任务一年1万元以上的框架,存在拒绝退款问题;其次,培训内容非常简单且耗时,耽误了用户的上手时间;第三,不合格、不达标,总会影响盒子的合格率,最终影响收入;第四,态度傲慢,无视用户诉求,不处理,不退款。
▲图片来源黑猫投诉平台截图 以上问题只是冰山一角。
虽然“自我象限”没有成功注册付款,但在咨询后的一段时间内,也收到了频繁的电话和微信轰炸。
从《早安》开始,他就从来不跟我说晚安,还不时用其他员工的工资表来调侃和刺激他。
▲图源微信截图 一场认真的数据标注求职变成了一场“割韭菜”游戏。
老老实实拉箱子的员工一无所获,而收取培训费的数据标注公司却赚得盆满钵满。
数据质量决定大型模型的速度,就连 OpenAI 也不例外。
外媒报道称,OpenAI一方面找了多家知名数据公司给数据打标签,另一方面也组建了数十名哲学博士的团队做数据质量检验。
大模型的基础是数据,数据质量直接决定大模型演化的速度。
从数据标注的混乱中,我们或许可以一窥为什么中国大型模型的发展缓慢,但现在大型模型厂商也意识到了数据标注的来源,也许离这个并不遥远。
我们真正突破了GPT-4。
【本文经投资界合伙人Quadrant授权发布。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投