再次!新能源企业长期合同履约五个要点
06-18
【图片来源:Arm社区 楼主:Arm社区】雷锋网记者:Arm社区最近发表了一篇文章,深入介绍了一种机器学习处理器(Machine Learning Processor),它是了解该处理器可以加速边缘设备上的计算过程;这是Arm首次专门推出类似NPU的AI专用处理器。
雷锋网整理全文如下。
想想看,你有多少个连接设备?无论您是小玩意儿爱好者还是普通小玩意儿拥有者,您现在拥有的小玩意儿很可能比五年前还要多。
从智能手机和平板电脑到个人健身追踪器、智能哮喘吸入器和智能门铃,我们年复一年地变得更加互联,导致个人数据爆炸式增长。
根据最近的一份报告,全球人均联网设备数量将从过去十年的不到 2 台跃升至 2020 年的 6.58 台——大量设备会产生大量数据。
传统上,这些数据将被发送到云端进行处理;但随着数据量和设备呈指数级增长,不断地来回移动数据是不切实际的,更不用说安全且具有成本效益了。
幸运的是,机器学习 (ML) 的最新进展意味着现在可以在设备上完成比以往更多的处理和预处理。
这带来了多种好处,包括由于降低了数据泄露风险而提高了安全性、节省了成本和功耗。
在云和设备之间来回移动数据的基础设施并不便宜,因此设备上可以完成的处理越多越好。
性能曲线上的功率和效率设备上的机器学习从 CPU 开始,CPU 充当熟练的“流量控制器”,可以自行管理整个机器学习工作负载,也可以将选定的任务分配给特定的机器学习处理器。
Arm CPU 和 GPU 已经跨越了性能曲线,为数千个 ML 用例提供支持,尤其是在移动设备上,边缘机器学习推动了消费者期望的标准功能的实现。
随着这些处理器变得更加强大和高效,它们能够驱动更高的性能,为边缘的安全机器学习提供更多的设备上计算能力。
(例如,第三代DynamIQ大核Arm Cortex-A77 CPU,可以在不影响电池寿命的情况下管理计算密集型任务,以及Arm Mali-G77 GPU,可以为ML提供60%的性能提升。
)但是,虽然 CPU 和 GPU 本身就是 ML 的动力源,但在最密集、最高效的性能要求下,它们可能很难独自满足该需求。
正是在这些任务中,Arm ML 处理器等专用神经处理单元 (NPU) 的强大功能将派上用场,为边缘的 ML 推理提供最高吞吐量和最高效的处理。
平衡性能和功耗 是什么让 ML 处理器如此特别?它的特别之处在于它基于全新的架构,面向智能手机、智能相机、增强现实和虚拟现实设备(AR/VR)、无人机以及医疗电子和消费电子等互联设备。
其高达 4 TOP/s 的计算性能实现了以前由于电池寿命或热限制而无法实现的新用例 - 允许开发人员创造新的用户体验,例如 3D 面部解锁或具有深度控制或肖像照明的高级肖像模式功能等等。
当然,性能优越是一件好事。
但如果它要求您每隔几个小时给设备充电一次或随身携带移动电源,那就不太好了。
为了将用户从充电线的束缚中解放出来,这款机器学习处理器拥有业界领先的 5TOPs/W 功率效率,这是通过重量压缩、激活压缩和 Winograd 等最先进的优化实现的。
Winograd 使关键卷积滤波器的性能比其他 NPU 更好,占用空间更小,并提高效率,同时减少任何给定设计所需的组件数量。

这反过来又降低了成本和功耗要求,同时又不影响用户体验。
该架构由用于高效执行卷积层的固定功能引擎和用于执行非卷积层以及实现选定原语和运算符的可编程层引擎组成。
这些原生支持的功能与常见的神经框架紧密集成,降低了网络部署成本,从而加快了上市时间。
【图片来源:Arm 社区 楼主:Arm 社区】我们来看看这款处理器的参数: 性能:CPU、GPU、DSP 提供巨大提升,最高可达 5 TOPs/W 加速器;网络支持:处理各种流行的神经网络,包括卷积层(CNN)和递归层(RNN),用于分类、对象检测、图像增强、语音识别和自然语言理解;安全性:利用Arm TrustZone架构的基础,最大限度地减少攻击面执行;可扩展性:可多核扩展,单集群最多8个NPU和32个TOP,网格配置最多64个NPU;神经框架支持:与现有框架紧密集成:TensorFlow、TensorFlow Lite、Caffe、Caffe 2 等通过 ONNX 实现的框架; Winograd 卷积:与其他 NPU 相比,普通滤波器速度快 %,能够在更小的区域内实现更高的性能;内存压缩:通过各种压缩技术,最大限度地减少系统内存带宽;异构机器学习计算:Arm Cortex-A CPU 和 Arm Mali GPU 的优化使用;开源软件功能:通过 Arm NN 支持降低成本并避免锁定;为了使开发人员和未来的开发变得更容易,这款 ML 处理器具有集成的网络控制单元和 DMA(直接内存访问)。
这个DMA可以管理整个网络的执行和遍历,还可以在后台将数据移入和移出主存。
。
同时,板载内存允许集中存储权重和特征图,减少与外部内存的通信并延长电池寿命,这是对消费者期望的标准用户体验的另一个认可。
至关重要的是,这款机器学习处理器足够灵活,可以支持更高要求的用例,运行更多、更大的并发特性:单个集群中可以配置 8 个核心,达到 32 TOP/s 的性能;或者网格配置中最多 64 个 NPU。
最终,这款机器学习处理器增强了性能、提高了效率、降低了网络部署成本,并且通过紧密耦合固定功能和可编程引擎,允许固件随着新功能的开发而更新,从而使这种设计不会过时。
总而言之,通过将功能、效率和灵活性相结合,这款 ML 处理器定义了边缘 ML 推理的未来,使开发人员能够在满足未来用例需求的同时创造当今最佳的用户体验。
雷锋网注:本文编译自Arm社区,雷锋网编译。
雷锋网版权文章未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
06-17
06-18
06-18
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投