成都银行正式递交IPO申请 拟发行不超8亿股普通股
06-17
人工智能和机器学习仍然是全球持续增长的领域之一。
近年来,越来越多的工程师人以本科生或非人工智能专业的身份出现。
他们努力学习和使用技术来改进产品,几乎每天都会发布新的机器学习技术和框架。
本文将讨论 LinkedIn 如何大规模利用技术来帮助更多工程师提高机器学习的效率。
近日,LinkedIn中国机器学习研发负责人经理·李子在IEEE国际数据挖掘会议(ICDM)上分享了LinkedIn如何大规模开展机器学习,介绍了LinkedIn的核心产品以及如何利用技术帮助更多工程师改进机器。

学习效率。
Pro-ML 提高了机器学习效率。
过去10年来,LinkedIn将人工智能技术应用于各个方面,以改善用户和客户体验。
例如,“您可能认识的人”可以推荐可以给您的职业。
培养能带来价值的人才; Feed可以帮助您找到最相关的行业信息,例如联系人的最新文章或最新动态;Recruiter搜索可以帮助企业了解趋势并更好地招聘;工作推荐系统(JobRecommendationSystem)它可以帮助您找到工作或跳槽到更好的公司。
机器学习驱动 LinkedIn 的核心产品。
但LinkedIn发现,过去每个团队都使用自己的AI技术栈来开发自己的产品。
,这种方式无法有效实现规模化,因为每个团队使用的技术不同,从逻辑回归到深度学习,从Pig、Hive、Spark到Scalding等,团队之间很难在AI技术栈上进行共享和协作。
因此,LinkedIn希望在招聘新员工或开发新功能或使用新技术时,尽可能减轻大家的负担。
另外,近年来人工智能领域的很多从业者实际上并不是人工智能专业。
LinkedIn 的人工智能基础设施过于复杂,他们无法构建和迭代模型。
为了有效推动机器学习规模化,LinkedIn打造了一个名为“Productive Machine Learning”(简称Pro-ML)的项目。
Pro-ML的目标是将AI 工程师的工作效率提高一倍,让他们能够更轻松、更高效地构建模型。
在过去的十年中,LinkedIn 发现模型性能与模型更新速度直接相关。
因此,如果能够允许工程师加快模型迭代速度,模型性能也会有所提升。
具体来说,Pro-ML采用分层的解决方案,目标是提高整个模型开发周期的效率,从模型探索和构建(Exploring and Authoring)到模型训练(Training)、模型部署(Deploying)和模型运行(跑步)。
),然后继续监控模型状态。
LinkedIn希望将所有日常任务自动化,以便算法工程师能够更加专注于创新。
Pro-ML中有两个工具贯穿了刚才提到的所有阶段:一个是特征市场,另一个是健康保障层。
在功能市场中,LinkedIn 使用先进技术来生成、共享和管理新功能。
AI建模的核心是特征工程,LinkedIn有数百个工程师和数万个特征正在研究。
提高工程师生成、共享和管理功能的效率对于提高工作效率至关重要。
健康保障层可以在整个开发周期中持续监控模型状态。
例如,它确保用于模型训练的离线特征和用于在线推理的在线特征在统计上一致或相似,同时保证在线模型的良好性能。
例如,在预测分数时,工程师希望在线分数的准确性与线下训练的分数保持一致。
一旦健康保障层检测到异常,就会自动向工程师发出警报,工程师可以介入进行调试。
健康保障层还提供了许多有用的工具来帮助工程师进一步识别问题。
代码有错吗?或者数据丢失了?或者仅仅是因为模型太旧并且需要重新训练?使用 Pro-ML 提高效率的第一步 - 探索和授权。
建模过程实际上是从对问题的探索开始的。
目标是什么?目标函数是什么?有什么特点?数据是什么?对于这些问题,工程师需要进行无数次实验来探索数据、进行特征工程、调整模型和超参数。
为了提高现阶段的工作效率,LinkedIn构建了一个集成了Pro-ML内核的Jupyter Notebook。
借助Jupyter Notebook,工程师可以一步步进行数据探索、特征选择和模型绘制,并以交互的方式进行实验。
Jupyter Notebook利用LinkedIn的Spark集群提供计算资源,让工程师无需在本地下载数据就可以在线完成工作,这不仅提高了他们的工作效率,还保护了用户隐私。
为了定义模型,除了 Jupyter Notebook 之外,LinkedIn 还构建了一种名为 Quasar 的领域特定语言(Domain-specific Language,DSL)。
本质上,机器学习模型是一个有向无环图(DAG),它定义输入特征以及这些特征的转换。
Quasar DSL是LinkedIn用来定义模型的语言,它为建模者提供了几乎所有常见的特征转换功能。
因此,AI开发者可以专注于尝试新的功能或功能组合,而无需编写大量重复的代码进行功能转换。
Quasar的另一个优势是离线训练的模型可以直接部署到线上,这大大简化了模型从离线到在线的过渡。
多种工具高效辅助模型训练。
众所周知,一个模型实际上有两个关键组成部分,一是特征,二是算法。
我们先来看看特点。
前面提到,特征工程是AI建模的核心。
在LinkedIn上,为了提高学习效率,LinkedIn构建的框架Feature Marketplace可以让工程师有效地生成、发现、分享和管理特征。
工程师可以将功能共享到功能市场供其他人使用,也可以通过名称搜索功能、发现该功能并获取该功能的所有信息,例如该功能的创建者、该功能是如何生成的以及该功能应用在哪些领域。
Ying模型中特征的统计分布等等,这些问题都可以在特征市场中找到答案。
特征市场还为工程师提供了许多实用且有用的工具,帮助他选择特征并持续监控和验证特征。
通过特征市场,工程师可以快速找到建模所需的特征。
然而,Feature Marketplace也面临着挑战:如何确保工程师能够得到他们所需要的东西,比如线上和线下的功能保持一致。
如果你做了很多离线实验并收集了好的特征进行建模,那么模型可能表现得很好,但不能保证特征在线上稳定。
如果不稳定,模型性能可能会下降。
事实上,此类事故近年来屡见不鲜。
为了解决这个问题,LinkedIn 构建了一个名为 Frame 的工具。
Frame是一个离线和在线生成特征的平台,基于相同的配置和相同的公共库,保证离线和在线的一致性。
LinkedIn向工程师提供了操作细节,工程师只需指定Quasar模型中的特征名称,即可保证线上线下获取特征的一致性。
收集到特征后,需要一种算法。
LinkedIn支持深度学习、决策树算法、广义线性混合模型(GLMix)等算法。
在深度学习场景中,LinkedIn使用的是Tensorflow;在决策树算法场景中,使用XGBoost,两者都是第三方库。
LinkedIn 为 GLMix 开发并开源了一个名为 Photon 的机器学习库。
GLMix模型极大地提高了职位推荐系统的性能,并成功将职位申请数量增加了20%。
基于特征和算法,LinkedIn构建了Photon Connect训练引擎来连接上述所有组件。
Photon Connect 使用 Frame 访问特征并将特征与标签数据连接起来,然后将数据传输到 Quasar 模型进行特征转换。
现阶段,Quasar模型的参数未知。
LinkedIn使用Quasar模型进行特征转换,然后使用算法来学习这些参数。
学习到的参数被插入到 Quasar 模型中。
这样一个Quasar模型建模就完成了,可以直接部署到线上服务中。
健康保障层保证算法顺利运行。
模型训练和部署完成后,最后一个问题是:模型实际运行时,如何保持其正常运行?根据以往的经验教训,开发初期越重视这个问题,就越容易保证模型在实际运行过程中正常运行。
因此,在模型探索和训练等早期阶段,LinkedIn的健康保障层提供了一系列工具进行持续监控和验证。
有人会问,在实际操作中,是不是所有的在线功能都可用呢?功能更新的速度够快吗?事实上,如果出现任何问题,健康保障层将通知相应的工程师,他将介入进行调试。
健康保障层为工程师提供了一系列工具,帮助他们快速解决问题。
LinkedIn 的机器学习和 Pro-ML 团队经过十年的快速发展和实验,LinkedIn 将人工智能和产品团队紧密联系在一起,使机器学习团队能够与致力于类似挑战的同行专家合作。
并分享最佳实践。
同样,Pro-ML 团队围绕五个主要支柱构建,每个支柱支持模型开发生命周期的一个阶段。
通常,每个支柱都有一个负责人(通常是工程师)、一个技术负责人和几个工程师。
这些团队也来自不同的组织,包括产品工程组织、基础/工具组织和基础设施团队。
Pro-ML 团队遍布世界各地,包括班加罗尔、欧洲和美国的多个地点。
LinkedIn 还拥有一个领导团队,帮助塑造项目愿景,最重要的是,努力消除摩擦,使每个支柱都能独立存在。
Pro-ML 将增加能够利用人工智能的产品数量,并扩大能够训练和部署模型的团队数量。
此外,它将减少模型选择、部署等所需的时间,并使健康保障等关键领域实现自动化。
LinkedIn 现在已经花了一年多的时间来改造人工智能,使其在所有工程领域保持快速、高效和可操作。
这让工程师有更多的时间去做他们最擅长的事情:利用 LinkedIn 独特的、高度结构化的数据集来寻找解决棘手技术问题的创造性解决方案。
自2018年进入中国以来,LinkedIn不断开拓中国独特的市场。
其在中国北京和美国硅谷白手起家,打造了一支百余人的本土研发团队。
两个团队以“One Team”的协作形式,利用总部的技术资源优势,希望推动在中国市场完成本地化产品和技术创新。
未来,LinkedIn将进一步依托如果您也想加入LinkedIn中国强大的研发团队,请点击链接查看并申请职位!雷锋网版权文章未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态