腾讯投资航空科技公司飞翔互联
06-17
投资圈(ID:pedaily)据5月22日消息,绿辰科技宣布完成数亿元A轮融资。
据公司介绍,本轮融资是路辰科技成立18个月内完成的第三轮融资。
该资金将主要用于团队扩张和业务发展。
陆辰科技成立于2007年,主要业务是通过搭建分布式人工智能开发部署平台,帮助企业降低大型模型的实施成本,提高训练和推理效率。
公司创始人尤阳表示,他此前曾在伯克利和新加坡国立大学从事分布式计算、机器学习、高性能计算相关研究,并曾创下过ImageNet和BERT训练速度的世界纪录。
2000年左右,他更加坚信大机型的趋势,于是当年创立了陆辰科技,希望降低大机型的落地门槛。
路辰科技目前的产品包括开源高效深度学习系统Colossal-AI以及相应的企业版PaaS平台。
该平台主要由异构内存管理系统、高效的N维并行系统和低延迟推理系统组成。
总体目标是帮助客户最小化模型部署成本并最大化计算效率。
关于内存管理,尤阳表示,模型参数和层数越大,计算量越大。
GPT3的1亿个参数可能需要GB内存。
此外,训练神经网络时需要存储梯度和优化器状态。
“GPT3什么都不做的时候会消耗G内存。
”尤阳举了一个例子。
另外,内存资源实际上是比较稀缺的,因此在训练大型模型的场景中,内存资源的科学管理就变得极其重要。
当GPU无法存储这些数据时,需要将部分数据迁移到CPU或NVMe硬盘上。
尤阳表示,管理GPU、CPU、NVMe硬盘,称为异构管理。
过去异构管理主要延续静态的思路,从一开始就估算参数、梯度、优化器等所需的资源。
在尤阳看来,这种方法比较僵化,无法根据实际训练过程进行调整,很可能造成资源浪费。
但陆晨采用的动态管理方式可以更灵活地平衡资源。
“我们希望数据能放到GPU里。
但是如果GPU放不下,就放到CPU里。
如果CPU放不下,就放到NVMe里。
但同时,我们需要尽量减少CPU之间的数据移动其中,GPU、NVMe是最重要的。
”尤阳说道。
Luchen的异构内存管理系统可以帮助实现这一目标。
另一方面,企业现在训练大型模型,通常基于数百或数千个 GPU 卡。
这是因为,理论上,卡越多,需要的训练时间越少,大型模型的实现效率更高。
但现实中,更多的卡意味着更多的机器承载计算功能,而当每台机器的结果最终聚合在一起时,通信就会造成新的效率损失。
为了解决这个痛点,Luchen 创建了一个高效的 N 维并行系统。
尤阳表示,在这个系统中,公司采用了高维张量并行等方法来提高效率。
尤阳表示,这背后的原理主要是通过二维的方式来设计张量并行。
张量并行性允许计算任务被分解并同步执行。
二维切片方法使得每台机器只处理同一对等或同一行的机器,而不需要处理所有机器。
“如果我们需要10000台机器来计算,而传统方法(一维)需要一台机器来处理剩余的机器,那么我们只需要处理99台机器。

”他说。
三是低延迟推理系统,用于减少模型推理速度慢带来的延迟。
尤阳表示,要解决这个问题,整体的部署方式和模型本身的优化都很重要。
在优化方面,Luchen的内存管理、张量并行技术、剪枝蒸馏等方案都可以发挥作用。
可以看出,异构内存管理系统和高效的N维并行系统主要在训练步骤中发挥作用,而低延迟推理系统则提高了推理部分的速度。
如果进一步细分,异构内存管理系统可以帮助客户节省资源成本,高效的N维并行系统可以提高计算速度。
尤阳表示,这三大系统目前都集成在公司的PaaS平台中,开源版本Colossal-AI目前已获得约3万个GitHub star。
在具体服务方式上,尤阳表示,目前客户可以通过陆辰的PaaS平台直接训练自己的模型,陆辰也可以帮助客户训练模型。
据介绍,路晨的解决方案已在自动驾驶、云计算、零售、医药、芯片、金融等行业落地。
Colossal-AI GitHub星数据了解到,本轮融资后,路辰将加速扩张,希望吸引更多MLOps、AI大模型、AI框架等领域的人才,更好地服务客户。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态