首页 > 科技未来 > 内容

LinkedIn上机器学习的大规模应用

发布于:2024-06-18 编辑:匿名 来源:网络

人工智能和机器学习仍然是全球持续增长的领域之一。

近年来,越来越多的工程师人以本科生或非人工智能专业的身份出现。

他们努力学习和使用技术来改进产品,几乎每天都会发布新的机器学习技术和框架。

本文将讨论 LinkedIn 如何大规模利用技术来帮助更多工程师提高机器学习的效率。

近日,LinkedIn中国机器学习研发负责人经理·李子在IEEE国际数据挖掘会议(ICDM)上分享了LinkedIn如何大规模开展机器学习,介绍了LinkedIn的核心产品以及如何利用技术帮助更多工程师改进机器。

LinkedIn上机器学习的大规模应用

学习效率。

Pro-ML 提高了机器学习效率。

过去10年来,LinkedIn将人工智能技术应用于各个方面,以改善用户和客户体验。

例如,“您可能认识的人”可以推荐可以给您的职业。

培养能带来价值的人才; Feed可以帮助您找到最相关的行业信息,例如联系人的最新文章或最新动态;Recruiter搜索可以帮助企业了解趋势并更好地招聘;工作推荐系统(JobRecommendationSystem)它可以帮助您找到工作或跳槽到更好的公司。

机器学习驱动 LinkedIn 的核心产品。

但LinkedIn发现,过去每个团队都使用自己的AI技术栈来开发自己的产品。

,这种方式无法有效实现规模化,因为每个团队使用的技术不同,从逻辑回归到深度学习,从Pig、Hive、Spark到Scalding等,团队之间很难在AI技术栈上进行共享和协作。

因此,LinkedIn希望在招聘新员工或开发新功能或使用新技术时,尽可能减轻大家的负担。

另外,近年来人工智能领域的很多从业者实际上并不是人工智能专业。

LinkedIn 的人工智能基础设施过于复杂,他们无法构建和迭代模型。

为了有效推动机器学习规模化,LinkedIn打造了一个名为“Productive Machine Learning”(简称Pro-ML)的项目。

Pro-ML的目标是将AI 工程师的工作效率提高一倍,让他们能够更轻松、更高效地构建模型。

在过去的十年中,LinkedIn 发现模型性能与模型更新速度直接相关。

因此,如果能够允许工程师加快模型迭代速度,模型性能也会有所提升。

具体来说,Pro-ML采用分层的解决方案,目标是提高整个模型开发周期的效率,从模型探索和构建(Exploring and Authoring)到模型训练(Training)、模型部署(Deploying)和模型运行(跑步)。

),然后继续监控模型状态。

LinkedIn希望将所有日常任务自动化,以便算法工程师能够更加专注于创新。

Pro-ML中有两个工具贯穿了刚才提到的所有阶段:一个是特征市场,另一个是健康保障层。

在功能市场中,LinkedIn 使用先进技术来生成、共享和管理新功能。

AI建模的核心是特征工程,LinkedIn有数百个工程师和数万个特征正在研究。

提高工程师生成、共享和管理功能的效率对于提高工作效率至关重要。

健康保障层可以在整个开发周期中持续监控模型状态。

例如,它确保用于模型训练的离线特征和用于在线推理的在线特征在统计上一致或相似,同时保证在线模型的良好性能。

例如,在预测分数时,工程师希望在线分数的准确性与线下训练的分数保持一致。

一旦健康保障层检测到异常,就会自动向工程师发出警报,工程师可以介入进行调试。

健康保障层还提供了许多有用的工具来帮助工程师进一步识别问题。

代码有错吗?或者数据丢失了?或者仅仅是因为模型太旧并且需要重新训练?使用 Pro-ML 提高效率的第一步 - 探索和授权。

建模过程实际上是从对问题的探索开始的。

目标是什么?目标函数是什么?有什么特点?数据是什么?对于这些问题,工程师需要进行无数次实验来探索数据、进行特征工程、调整模型和超参数。

为了提高现阶段的工作效率,LinkedIn构建了一个集成了Pro-ML内核的Jupyter Notebook。

借助Jupyter Notebook,工程师可以一步步进行数据探索、特征选择和模型绘制,并以交互的方式进行实验。

Jupyter Notebook利用LinkedIn的Spark集群提供计算资源,让工程师无需在本地下载数据就可以在线完成工作,这不仅提高了他们的工作效率,还保护了用户隐私。

为了定义模型,除了 Jupyter Notebook 之外,LinkedIn 还构建了一种名为 Quasar 的领域特定语言(Domain-specific Language,DSL)。

本质上,机器学习模型是一个有向无环图(DAG),它定义输入特征以及这些特征的转换。

Quasar DSL是LinkedIn用来定义模型的语言,它为建模者提供了几乎所有常见的特征转换功能。

因此,AI开发者可以专注于尝试新的功能或功能组合,而无需编写大量重复的代码进行功能转换。

Quasar的另一个优势是离线训练的模型可以直接部署到线上,这大大简化了模型从离线到在线的过渡。

多种工具高效辅助模型训练。

众所周知,一个模型实际上有两个关键组成部分,一是特征,二是算法。

我们先来看看特点。

前面提到,特征工程是AI建模的核心。

在LinkedIn上,为了提高学习效率,LinkedIn构建的框架Feature Marketplace可以让工程师有效地生成、发现、分享和管理特征。

工程师可以将功能共享到功能市场供其他人使用,也可以通过名称搜索功能、发现该功能并获取该功能的所有信息,例如该功能的创建者、该功能是如何生成的以及该功能应用在哪些领域。

Ying模型中特征的统计分布等等,这些问题都可以在特征市场中找到答案。

特征市场还为工程师提供了许多实用且有用的工具,帮助他选择特征并持续监控和验证特征。

通过特征市场,工程师可以快速找到建模所需的特征。

然而,Feature Marketplace也面临着挑战:如何确保工程师能够得到他们所需要的东西,比如线上和线下的功能保持一致。

如果你做了很多离线实验并收集了好的特征进行建模,那么模型可能表现得很好,但不能保证特征在线上稳定。

如果不稳定,模型性能可能会下降。

事实上,此类事故近年来屡见不鲜。

为了解决这个问题,LinkedIn 构建了一个名为 Frame 的工具。

Frame是一个离线和在线生成特征的平台,基于相同的配置和相同的公共库,保证离线和在线的一致性。

LinkedIn向工程师提供了操作细节,工程师只需指定Quasar模型中的特征名称,即可保证线上线下获取特征的一致性。

收集到特征后,需要一种算法。

LinkedIn支持深度学习、决策树算法、广义线性混合模型(GLMix)等算法。

在深度学习场景中,LinkedIn使用的是Tensorflow;在决策树算法场景中,使用XGBoost,两者都是第三方库。

LinkedIn 为 GLMix 开发并开源了一个名为 Photon 的机器学习库。

GLMix模型极大地提高了职位推荐系统的性能,并成功将职位申请数量增加了20%。

基于特征和算法,LinkedIn构建了Photon Connect训练引擎来连接上述所有组件。

Photon Connect 使用 Frame 访问特征并将特征与标签数据连接起来,然后将数据传输到 Quasar 模型进行特征转换。

现阶段,Quasar模型的参数未知。

LinkedIn使用Quasar模型进行特征转换,然后使用算法来学习这些参数。

学习到的参数被插入到 Quasar 模型中。

这样一个Quasar模型建模就完成了,可以直接部署到线上服务中。

健康保障层保证算法顺利运行。

模型训练和部署完成后,最后一个问题是:模型实际运行时,如何保持其正常运行?根据以往的经验教训,开发初期越重视这个问题,就越容易保证模型在实际运行过程中正常运行。

因此,在模型探索和训练等早期阶段,LinkedIn的健康保障层提供了一系列工具进行持续监控和验证。

有人会问,在实际操作中,是不是所有的在线功能都可用呢?功能更新的速度够快吗?事实上,如果出现任何问题,健康保障层将通知相应的工程师,他将介入进行调试。

健康保障层为工程师提供了一系列工具,帮助他们快速解决问题。

LinkedIn 的机器学习和 Pro-ML 团队经过十年的快速发展和实验,LinkedIn 将人工智能和产品团队紧密联系在一起,使机器学习团队能够与致力于类似挑战的同行专家合作。

并分享最佳实践。

同样,Pro-ML 团队围绕五个主要支柱构建,每个支柱支持模型开发生命周期的一个阶段。

通常,每个支柱都有一个负责人(通常是工程师)、一个技术负责人和几个工程师。

这些团队也来自不同的组织,包括产品工程组织、基础/工具组织和基础设施团队。

Pro-ML 团队遍布世界各地,包括班加罗尔、欧洲和美国的多个地点。

LinkedIn 还拥有一个领导团队,帮助塑造项目愿景,最重要的是,努力消除摩擦,使每个支柱都能独立存在。

Pro-ML 将增加能够利用人工智能的产品数量,并扩大能够训练和部署模型的团队数量。

此外,它将减少模型选择、部署等所需的时间,并使健康保障等关键领域实现自动化。

LinkedIn 现在已经花了一年多的时间来改造人工智能,使其在所有工程领域保持快速、高效和可操作。

这让工程师有更多的时间去做他们最擅长的事情:利用 LinkedIn 独特的、高度结构化的数据集来寻找解决棘手技术问题的创造性解决方案。

自2018年进入中国以来,LinkedIn不断开拓中国独特的市场。

其在中国北京和美国硅谷白手起家,打造了一支百余人的本土研发团队。

两个团队以“One Team”的协作形式,利用总部的技术资源优势,希望推动在中国市场完成本地化产品和技术创新。

未来,LinkedIn将进一步依托如果您也想加入LinkedIn中国强大的研发团队,请点击链接查看并申请职位!雷锋网版权文章未经授权禁止转载。

详情请参阅转载说明。

LinkedIn上机器学习的大规模应用

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 卧底4年,揭开iPhone城非法秘密

    卧底4年,揭开iPhone城非法秘密

    雷锋网消息,9月8日,中国劳工观察(China Labor Watch,总部位于美国纽约的非营利组织,以下简称CLW)发布调查报告称,苹果及其合作伙伴富士康侵犯了劳工权利,违反了中国劳动法。 随后,苹果和富士康证实了中国劳工观察的报道内容。 值得一提的是,周三(9月11日),苹果将

    06-17

  • 新锐中国茶品牌「一念草木中」完成Pre-A轮融资,IDG资本独家投资

    新锐中国茶品牌「一念草木中」完成Pre-A轮融资,IDG资本独家投资

    中国新兴茶饮品牌“一年草木种”已完成Pre-A轮融资。 IDG资本独家投资,累计融资金额数千万元。 天使轮融资来自泽盛资本,Pre-A轮由IDG资本独家投资。 “一年草木种”成立于今年2月。 从品牌官方公众号可以看出,其品牌愿景是“寻找、发现、追溯本土好茶的起源,让世界品尝中

    06-17

  • 市场预计腾讯音乐2020年第四季度收入同比增长21.9%

    市场预计腾讯音乐2020年第四季度收入同比增长21.9%

    市场预计腾讯音乐第四季度收入12.8亿美元,同比增长21.9% ;预计每股收益0.13美元,同比增长8.3%。

    06-18

  • 温州市区级政府产业基金,100亿

    温州市区级政府产业基金,100亿

    温州市鹿城区政府产业基金管理办法(试行)(征求意见稿)第一章总则第一条是规范和加强鹿城区政府产业基金(以下简称鹿城区政府产业基金)根据《浙江省财政厅关于印发浙江省产业基金管理办法的通知》(浙财建[]75号)、《浙江省财政厅关于进一步加强政府产业基金投资运作管理

    06-17

  • 360金融上线360三大科技银行综合体已全部建立信用评分系统

    360金融上线360三大科技银行综合体已全部建立信用评分系统

    近日,金融正式上线个人信用评分。 该功能已在IOU APP上线。 这是蚂蚁芝麻信用分和腾讯信用分发展的第二步。 这是继微信支付积分之后,国内互联网+银行综合体建立的第三个信用积分体系。 6月5日,集团以12.8亿元收购天津津城银行股份有限公司(简称津城银行)30%股权,成为继

    06-17

  • GlobalFoundries CEO:芯片产能必须在10年内翻倍才能解决芯片短缺问题

    GlobalFoundries CEO:芯片产能必须在10年内翻倍才能解决芯片短缺问题

    23日,主要晶圆代工厂GlobalFoundries首席执行官Tom Caulfield表示,未来8到10年,芯片行业的产能必须增加一倍才能解决芯片短缺和政府对供应链安全日益增长的担忧。 据《日经亚洲评论》报道,GlobalFoundries 首席执行官(Tom Caulfield)在 SemiconSouth 在线演讲中表示:“

    06-08

  • 投资教父去世

    投资教父去世

    老虎走了,享年90岁。 本周,老虎基金创始人朱利安罗伯逊(朱利安罗伯逊)最近因心脏病并发症去世,享年90岁。 这是一个意外的离开——罗伯逊本来要去10月《老虎基金朱利安罗伯逊》在中国出版他唯一的传记。 出生于2007年的罗伯逊是美国对冲基金业的教父。 他与索罗斯和斯坦哈

    06-17

  • 乐学学获1000万元Pre-A轮融资

    乐学学获1000万元Pre-A轮融资

    据投资界6月12日消息,K12英语教育品牌“乐学学”近日宣布完成1万元Pre-A轮融资。 投资者尚未透露。   本轮融资将主要用于市场营销、课程研发、人工智能部署、VR虚拟教室建设等。   乐学教育成立于2019年12月,是一家为青少年提供互联网英语教育全产业链服务的平台。 乐学

    06-17

  • 创维G90显示器体验:售价近万元,但实际上相当划算吗?

    创维G90显示器体验:售价近万元,但实际上相当划算吗?

    当我把创维G90显示器放到桌面上,换掉之前的27寸显示器时,几乎每个路过的人都会疑惑地问:为什么要用电视当显示器?我不能总是说我应该使用“电视”作为显示器,因为我喜欢大的,所以我必须教育我的同事。 大小不是重点。 重点是它的4K、Hz刷新率、OLED面板和杜比的愿景。 再

    06-21

  • 首次发布 -环球买骑士特权完成数千万美元A轮融资,渶CE资本

    首次发布 -环球买骑士特权完成数千万美元A轮融资,渶CE资本

    投资圈(ID:pedaily)独家投资4月20日消息,近日,环球买骑士特权完成A轮融资,由渶CE资本< titlesplit >投资圈独家投资渶光大资本数千万美元A轮融资,耀明资本担任独家投资方。 本次融资是微策资本2020年首笔投资,也是会员特权聚合赛道的首笔融资,将为整个会员电商行业带

    06-17

  • 宇野科技已完成B+轮融资,宽带资本、晨兴资本领投,

    宇野科技已完成B+轮融资,宽带资本、晨兴资本领投,

    投资界(微信ID:pedialy)消息,欧诺科技近日宣布完成B+轮融资。 本轮由宽带资本和晨兴资本领投。 、东方富海、恒生电子也参与投资,B轮和B+轮融资总额近3亿元。 优诺科技创始人陈傲寒表示,本轮融资将用于IT架构管理产品的深入研发以及物联网PaaS平台的拓展。 ThingJS平台已

    06-18

  • 极客学院持续领跑IT专业在线教育:一年用户达120万

    极客学院持续领跑IT专业在线教育:一年用户达120万

    北京时间7月8日下午2点,极客学院“从0到1万用户”暨产品新版本发布会盛大召开。 发布会上,极客学院正式宣布用户数突破一万,达到一万人。 作为IT职业在线教育第一品牌,极客学院一直致力于让学习更有效。 本次大会上,还宣布了一系列战略布局,继续引领IT职业在线教育行业

    06-18