首页 > 科技未来 > 内容

LinkedIn上机器学习的大规模应用

发布于：2024-06-18 编辑：匿名来源：网络

人工智能和机器学习仍然是全球持续增长的领域之一。

近年来，越来越多的工程师人以本科生或非人工智能专业的身份出现。

他们努力学习和使用技术来改进产品，几乎每天都会发布新的机器学习技术和框架。

本文将讨论 LinkedIn 如何大规模利用技术来帮助更多工程师提高机器学习的效率。

近日，LinkedIn中国机器学习研发负责人经理·李子在IEEE国际数据挖掘会议（ICDM）上分享了LinkedIn如何大规模开展机器学习，介绍了LinkedIn的核心产品以及如何利用技术帮助更多工程师改进机器。

LinkedIn上机器学习的大规模应用

学习效率。

Pro-ML 提高了机器学习效率。

过去10年来，LinkedIn将人工智能技术应用于各个方面，以改善用户和客户体验。

例如，“您可能认识的人”可以推荐可以给您的职业。

培养能带来价值的人才； Feed可以帮助您找到最相关的行业信息，例如联系人的最新文章或最新动态；Recruiter搜索可以帮助企业了解趋势并更好地招聘；工作推荐系统（JobRecommendationSystem）它可以帮助您找到工作或跳槽到更好的公司。

机器学习驱动 LinkedIn 的核心产品。

但LinkedIn发现，过去每个团队都使用自己的AI技术栈来开发自己的产品。

，这种方式无法有效实现规模化，因为每个团队使用的技术不同，从逻辑回归到深度学习，从Pig、Hive、Spark到Scalding等，团队之间很难在AI技术栈上进行共享和协作。

因此，LinkedIn希望在招聘新员工或开发新功能或使用新技术时，尽可能减轻大家的负担。

另外，近年来人工智能领域的很多从业者实际上并不是人工智能专业。

LinkedIn 的人工智能基础设施过于复杂，他们无法构建和迭代模型。

为了有效推动机器学习规模化，LinkedIn打造了一个名为“Productive Machine Learning”（简称Pro-ML）的项目。

Pro-ML的目标是将AI 工程师的工作效率提高一倍，让他们能够更轻松、更高效地构建模型。

在过去的十年中，LinkedIn 发现模型性能与模型更新速度直接相关。

因此，如果能够允许工程师加快模型迭代速度，模型性能也会有所提升。

具体来说，Pro-ML采用分层的解决方案，目标是提高整个模型开发周期的效率，从模型探索和构建（Exploring and Authoring）到模型训练（Training）、模型部署（Deploying）和模型运行（跑步）。

），然后继续监控模型状态。

LinkedIn希望将所有日常任务自动化，以便算法工程师能够更加专注于创新。

Pro-ML中有两个工具贯穿了刚才提到的所有阶段：一个是特征市场，另一个是健康保障层。

在功能市场中，LinkedIn 使用先进技术来生成、共享和管理新功能。

AI建模的核心是特征工程，LinkedIn有数百个工程师和数万个特征正在研究。

提高工程师生成、共享和管理功能的效率对于提高工作效率至关重要。

健康保障层可以在整个开发周期中持续监控模型状态。

例如，它确保用于模型训练的离线特征和用于在线推理的在线特征在统计上一致或相似，同时保证在线模型的良好性能。

例如，在预测分数时，工程师希望在线分数的准确性与线下训练的分数保持一致。

一旦健康保障层检测到异常，就会自动向工程师发出警报，工程师可以介入进行调试。

健康保障层还提供了许多有用的工具来帮助工程师进一步识别问题。

代码有错吗？或者数据丢失了？或者仅仅是因为模型太旧并且需要重新训练？使用 Pro-ML 提高效率的第一步 - 探索和授权。

建模过程实际上是从对问题的探索开始的。

目标是什么？目标函数是什么？有什么特点？数据是什么？对于这些问题，工程师需要进行无数次实验来探索数据、进行特征工程、调整模型和超参数。

为了提高现阶段的工作效率，LinkedIn构建了一个集成了Pro-ML内核的Jupyter Notebook。

借助Jupyter Notebook，工程师可以一步步进行数据探索、特征选择和模型绘制，并以交互的方式进行实验。

Jupyter Notebook利用LinkedIn的Spark集群提供计算资源，让工程师无需在本地下载数据就可以在线完成工作，这不仅提高了他们的工作效率，还保护了用户隐私。

为了定义模型，除了 Jupyter Notebook 之外，LinkedIn 还构建了一种名为 Quasar 的领域特定语言（Domain-specific Language，DSL）。

本质上，机器学习模型是一个有向无环图（DAG），它定义输入特征以及这些特征的转换。

Quasar DSL是LinkedIn用来定义模型的语言，它为建模者提供了几乎所有常见的特征转换功能。

因此，AI开发者可以专注于尝试新的功能或功能组合，而无需编写大量重复的代码进行功能转换。

Quasar的另一个优势是离线训练的模型可以直接部署到线上，这大大简化了模型从离线到在线的过渡。

多种工具高效辅助模型训练。

众所周知，一个模型实际上有两个关键组成部分，一是特征，二是算法。

我们先来看看特点。

前面提到，特征工程是AI建模的核心。

在LinkedIn上，为了提高学习效率，LinkedIn构建的框架Feature Marketplace可以让工程师有效地生成、发现、分享和管理特征。

工程师可以将功能共享到功能市场供其他人使用，也可以通过名称搜索功能、发现该功能并获取该功能的所有信息，例如该功能的创建者、该功能是如何生成的以及该功能应用在哪些领域。

Ying模型中特征的统计分布等等，这些问题都可以在特征市场中找到答案。

特征市场还为工程师提供了许多实用且有用的工具，帮助他选择特征并持续监控和验证特征。

通过特征市场，工程师可以快速找到建模所需的特征。

然而，Feature Marketplace也面临着挑战：如何确保工程师能够得到他们所需要的东西，比如线上和线下的功能保持一致。

如果你做了很多离线实验并收集了好的特征进行建模，那么模型可能表现得很好，但不能保证特征在线上稳定。

如果不稳定，模型性能可能会下降。

事实上，此类事故近年来屡见不鲜。

为了解决这个问题，LinkedIn 构建了一个名为 Frame 的工具。

Frame是一个离线和在线生成特征的平台，基于相同的配置和相同的公共库，保证离线和在线的一致性。

LinkedIn向工程师提供了操作细节，工程师只需指定Quasar模型中的特征名称，即可保证线上线下获取特征的一致性。

收集到特征后，需要一种算法。

LinkedIn支持深度学习、决策树算法、广义线性混合模型（GLMix）等算法。

在深度学习场景中，LinkedIn使用的是Tensorflow；在决策树算法场景中，使用XGBoost，两者都是第三方库。

LinkedIn 为 GLMix 开发并开源了一个名为 Photon 的机器学习库。

GLMix模型极大地提高了职位推荐系统的性能，并成功将职位申请数量增加了20%。

基于特征和算法，LinkedIn构建了Photon Connect训练引擎来连接上述所有组件。

Photon Connect 使用 Frame 访问特征并将特征与标签数据连接起来，然后将数据传输到 Quasar 模型进行特征转换。

现阶段，Quasar模型的参数未知。

LinkedIn使用Quasar模型进行特征转换，然后使用算法来学习这些参数。

学习到的参数被插入到 Quasar 模型中。

这样一个Quasar模型建模就完成了，可以直接部署到线上服务中。

健康保障层保证算法顺利运行。

模型训练和部署完成后，最后一个问题是：模型实际运行时，如何保持其正常运行？根据以往的经验教训，开发初期越重视这个问题，就越容易保证模型在实际运行过程中正常运行。

因此，在模型探索和训练等早期阶段，LinkedIn的健康保障层提供了一系列工具进行持续监控和验证。

有人会问，在实际操作中，是不是所有的在线功能都可用呢？功能更新的速度够快吗？事实上，如果出现任何问题，健康保障层将通知相应的工程师，他将介入进行调试。

健康保障层为工程师提供了一系列工具，帮助他们快速解决问题。

LinkedIn 的机器学习和 Pro-ML 团队经过十年的快速发展和实验，LinkedIn 将人工智能和产品团队紧密联系在一起，使机器学习团队能够与致力于类似挑战的同行专家合作。

并分享最佳实践。

同样，Pro-ML 团队围绕五个主要支柱构建，每个支柱支持模型开发生命周期的一个阶段。

通常，每个支柱都有一个负责人（通常是工程师）、一个技术负责人和几个工程师。

这些团队也来自不同的组织，包括产品工程组织、基础/工具组织和基础设施团队。

Pro-ML 团队遍布世界各地，包括班加罗尔、欧洲和美国的多个地点。

LinkedIn 还拥有一个领导团队，帮助塑造项目愿景，最重要的是，努力消除摩擦，使每个支柱都能独立存在。

Pro-ML 将增加能够利用人工智能的产品数量，并扩大能够训练和部署模型的团队数量。

此外，它将减少模型选择、部署等所需的时间，并使健康保障等关键领域实现自动化。

LinkedIn 现在已经花了一年多的时间来改造人工智能，使其在所有工程领域保持快速、高效和可操作。

这让工程师有更多的时间去做他们最擅长的事情：利用 LinkedIn 独特的、高度结构化的数据集来寻找解决棘手技术问题的创造性解决方案。

自2018年进入中国以来，LinkedIn不断开拓中国独特的市场。

其在中国北京和美国硅谷白手起家，打造了一支百余人的本土研发团队。

两个团队以“One Team”的协作形式，利用总部的技术资源优势，希望推动在中国市场完成本地化产品和技术创新。

未来，LinkedIn将进一步依托如果您也想加入LinkedIn中国强大的研发团队，请点击链接查看并申请职位！雷锋网版权文章未经授权禁止转载。

详情请参阅转载说明。

站长声明

标签：

上一篇：滴滴与软银向合资公司滴滴日本增资52亿日元

下一篇：百特英语内部二次创业项目OAO System获数千万元A轮融资

成都银行正式递交IPO申请拟发行不超8亿股普通股

成都银行已正式提交IPO申请，拟在上海证券交易所发行不超过8亿股人民币普通股（A股）。），募集资金将用于补充资本金、增强可持续发展能力。　　IPO是成都银行实现建设优秀股份制银行目标的重要战略举措。成都银行上市不仅有利于增强资本实力、提高市场竞争力，也有利于进

06-17
日报优鲜孵化的无人零售“便利购物”获2亿美元融资，腾讯领投A轮，鼎晖领投B轮，

据投资界12月29日消息，生鲜零售平台天天耀明正式宣布，旗下孵化了半年的无人零售项目便利店，近日已分拆为独立运营的子公司并获得2亿美元A+B轮融资。　　其中，腾讯领投A轮投资，总额1万美元，元生资本、时代资本、KTB跟投；鼎晖投资共计1.44亿美元B轮领投，北极光创投、

06-18
工信部：下架艺龙酒店等37款APP

工信部此前已向社会公布了侵犯用户权益的APP企业名单。截至目前，经第三方检测机构核查复检，仍有37款APP未按照我部要求完成整改，包括新版星辰、艺龙酒店、草莓视频、东风出行、相机等APP。工业和信息化部组织下架上述37款App。本通知发布后，相关应用商店应立即组织下架

06-18
货拉拉完成3亿美元D轮融资，2018年业务量增长近200%

据投资界2月21日消息，从相关媒体获悉，同城货运平台货拉拉已完成高瓴资本D1投资。红杉资本中国基金领投D2轮融资。本轮融资总额为3亿美元。钟鼎资本和光伏资本也参与了投资。顺为资本、祥和资本、MindWorks Ventures、零一创投等老牌投资股东也持续跟投，广元资本担任本次

06-17
科技部：重点支持符合国家战略和战略性新兴产业的高新技术企业在创业板上市

科技部、深圳市人民政府关于印发的通知：支持深圳市制定新建研发机构扶持政策的项目申请和分类。推进创业板改革，实行注册制，推进发行、上市、信息披露、交易、退市等基础性制度改革。优化政策环境，重点支持符合国家战略的高新技术产业和战略性新兴产业高新技术企业在创业

06-17
9.1GWh！ Fortescue计划在西澳部署全球最大电池储能项目

据外媒报道，澳大利亚矿商Fortescue金属集团近日表示，已向西澳环保局提交了建设Uaroo可再生能源中心的提案。该项目的公众咨询期将开放一周，直至 2 月 15 日。公众咨询已经开始就一项大型可再生能源项目的计划进行，该项目将包括为 Fortescue 采矿设施提供电力的电网规模电

06-08
element14 社区公布“第六感”设计挑战赛获奖者

社区成员使用意法半导体 SensorTile 和 TE Con??nectivity 组件包设计自动驾驶汽车中国上海，2019 年 4 月 29 日 – 电子元件和开发服务全球分销商 element14 Community，在线社区element14旗下工程师公布了“第六感”设计挑战赛的获奖者。作为element14社区年度五大挑战赛

06-06
君联资本蔡大庆：医疗健康领域投资看重人才，聚焦新模式

近年来，健康医疗成为VC/PE策略师的必争之地。健康医疗行业也因其巨大的市场和不断涌现的创新技术和模式，成为竞争的温床。，及其抗周期性，被誉为“永远的朝阳产业”。君联资本重点关注的TMT、健康医疗、清洁科技、现代服务、先进制造、消费品六大领域中，医疗健康成为其

06-18
阿里云副总裁任庚：打造共生、创造、互惠的创业生态

10月12日上午，阿里巴巴年度创新创业峰会在云栖小镇国际会展中心举行。阿里云副总裁任庚发表主题为《遇见双创预见未来》的主题演讲。任庚认为，大众创业、万众创新不仅是国家竞争力的体现，也是DT时代的历史机遇，更是阿里巴巴经济体的责任和担当。阿里巴巴如何做大众创

06-17
RedBlock获得上市公司The Ninth City战略投资

7月11日消息，近日，区块链金融科技公司RedBlock宣布获得纳斯达克上市公司The Ninth City战略投资。除了获得九城的资金支持外，RedBlock还将依托九城的产业布局，与九城及其关联公司在海外业务和资产数字化方面开展战略合作。 RedBlock源自硅谷，致力于成为资产数字化领域的

06-18
人人网计划今年赴美IPO融资5亿美元

据投资界2月21日消息，据外媒报道，中国社交网站人人网计划今年赴美上市。　　据透露，投行摩根士丹利、德意志银行和瑞士信贷将担任人人网首次公开募股的联席证券承销商。据人士透露，人人网将于今年6月前向美国证监会提交上市申请。　　商业社交网络LinkedIn上个月宣布，

06-18
《广州2000年亿母基金管理办法》正式颁布

日前，广州市政府常务会议审议通过《广州产业投资母基金、广州创新投资母基金管理办法及配套激励约束制度》（以下简称《管理办法》）。 1亿元产业基金中的基金发挥“促投资、促生产”作用，采用“王牌基金+直投”方式开展投资运作；亿元创投基金中的基金发挥“以投促创业”的

06-17