用这款软件看看APP在用户背后做了什么
06-21
3月25日,负责人与Horizo??n BPU算法的罗恒发起了一场名为“《地平线如何追求极致效能?》”的独特在线分享。
作为“地平线核心技术公开课系列”的“创始课程”,罗恒从当前AI芯片的最大挑战,到MLperf的理想与局限性,再到地平线BPU(大脑处理单元,地平线自主研发的人工智能)智能专用处理单元)。
机器架构的演变)得到了雄辩的讨论。
结合人工智能发展趋势,深入解析地平线通过软硬件结合挑战极限性能、再现“摩尔定律”的技术历程。
以下为编译分享——AI芯片的最大挑战。
2010年以来,AI芯片逐渐成为人们关注的趋势。
行业参与者都希望做出极具竞争力的芯片。
在种种挑战中,最大的挑战是算法快速发展与芯片缓慢迭代之间的矛盾。
以 DeepMind 在 2016 年提出的人工神经网络 WaveNet 为例。
它可以模仿难以辨别真假的人声。
然而,它的计算量太大,甚至无法在当时最强大的GPU上进行实时处理。
近一分钟的延迟让人真假难辨。
这一革命性突破从未真正得到应用。
2016年,经过算法优化的Paralle WaveNet将计算效率提高了三倍,谷歌成功将其应用到Google Assistant中。
如果一家公司准备在这个时候(年)推出一款用于嵌入式系统的芯片,那么让这项AI成果应用在手机等移动场景中,将是一个非常合理的选择。
但在2018年,算法再次优化,核心计算方式通过RNN和DalitedCNN升级为Spares RNN,可以让手机CPU运行。
2008年开发的芯片要到2018年才能上市,这是一个悲伤的故事,体现了算法快速发展与芯片缓慢迭代之间的矛盾。
AI算法快速演进的趋势回归到地平线主通道的视觉感知。
2016年AlexNet在ImageNet中的突破拉开了这波AI浪潮的序幕。
从2000年到2015年,出现了各种网络。
最初,他们致力于改进 ImageNet。
VGG模型的扩展太快并且受到GPU的限制。
以下模型开始适度考虑精度和计算能力之间的权衡,ResNet开始提供解决方案来扩展网络计算能力以获得不同的精度。
多年后,ImageNet的精度逐渐饱和,计算效率的优化受到关注。
算法实现开始追求更高的精度和更少的计算量。
SpueezeNet、MobileNet、ShuffleNet 是这一时期“新”卷积神经网络的代表。
与此同时,机器学习方法也开始用于自动搜索网络,以NASNet为代表,但主要是搜索网络子结构。
到了这一年,卷积神经网络架构的演化逐渐收敛,子结构收敛到MobileNet v2的子结构,模型扩展方法来自EfficientNet的Compoundscaling方法。
上述AI算法的演进趋势对AI芯片厂商之间的竞争产生了极其重要的影响:虽然芯片架构设计能力和芯片SOC能力非常重要,但由于算法在不断变化,设计出来的芯片如何能够应用在AI芯片中?当它问世时,它也可以符合算法的最新进展。
这将是现在乃至可预见的未来AI芯片竞争的关键点。
什么是更好的AI芯片?算法演进和芯片迭代之间的脱节是我们面临的挑战。
那么,AI芯片赛道上的玩家如何设定明确的目标呢?如何连接研究与市场、连接工程与开发,通过实际场景中最优代表性任务的测试来反映机器学习算法的演进?目前常见的基准测试是 MLPerf。
但实际上,MLPerf Inference V0.5使用的分类模型仍然是ResNet50和MobileNet V1,检测模型是MobileNet V1和RerNet34。
从这个角度来看,MLPerf Inference虽然是新的,但由于模型相对陈旧,已经落后了算法进展两年。
另外,由于定量模型的流行,MLPerf希望设计一个统一的标准,但最终因精度问题而选择降低标准(MobileNet)。
提交者和标准设计者之间的博弈使得模型无法按预期更新。
但地平线始终认为,评估AI芯片的真实性能需要与时俱进的标准。
因此,为了更严格地测试真实性能,选择了前文提到的目前视觉领域效率最高的MobileNet V2结构(EfficientNet不改变计算方式,SE结构也经过了验证) EfficientNetTPU 不是关键因素)。
实测显示,这两款技术领先两代的竞品,在MobileNet V2帧率方面明显落后于地平线征程二代芯片。
除了Horizo??n和Journey II以及两款基于当前视觉领域最高效的MobileNet V2结构的竞品的测试结果外,还需要考虑其他因素才能达到最终的能效。
对于芯片来说,最大的功耗不在于计算,而在于数据处理。
如何降低DDR(Double Data Rate SDRAM,双倍速率同步动态随机存储器)的吞吐量实际上是降低功耗的关键。
那个地方。

Horizo??n在这方面也做了针对性的优化。
虽然帧速率超过竞品芯片,但仅为竞品芯片 DDR 吞吐量的 1/4。
因此,一方面用户可以使用成本更低的DDR,另一方面我们也不能假设用户在加速模型时就独占DDR。
他们必须将带宽与 ISP、编解码器和各种应用程序一起使用。
正城二号DDR吞吐成本低廉,让用户可以充分利用算力,而不受DDR带宽的限制。
BPU 结合硬件和软件来创造终极性能。
早在2008年,当我们设计第二代BPU时,我们就观察到来自学术界的两个信号。
。
2016年,我们在Horizo????n关心的视觉任务和免费数据上快速验证了学术界的特殊信号Depthwise Convolution。
证明了Depthwise Convolution带来的效率提升。
然后我们做了初步优化,8bit量化了Depthwise Convolution模型,量化后的模型精度>浮点模型精度*0.99(半年后谷歌量化论文发表,但精度并不理想);我们尝试使用1x1来扩大Depthwise Convolution核的数量,同时减少1x1卷积引入的计算量(类似于一年后发布的MobileNet v2);尝试了不同的内核大小,发现将内核大小扩大到7可以仅以很小的计算成本提高精度(与两年后发布的相比)。
Mixconv论文一致)。
完成初步验证和优化后,我们制作了FPGA版本的BPU,后来演变为Matrix(获得2016年CES创新奖,是车辆智能和自动驾驶技术类别中唯一获得该奖项的中国产品) )。
这辆车测试了我们所有的选择。
软件和硬件的结合,挑战极限性能及以上实际应用场景的验证、优化和打磨,为我们的架构设计提供了参考,让我们从一开始就针对未来算法趋势进行优化,这一点今天已经得到证明。
Horizo??n BPU研发路线图 可以说,Horizo??n最大的特点就是预测关键算法的发展趋势,在最重要的场景进行垂直渗透,并主动将其计算特性融入到架构设计中,使得AI处理经过两年的发展研发方面,该处理器在推出时仍然能够很好地适应最新的主流算法,同时确保满足最关键应用的需求。
因此,与其他典型的AI处理器相比,地平线的AI处理器能够随着算法的演进始终保持非常高的有效利用率,从而真正受益于算法创新带来的优势。
技术的先发优势推动商业化进程,引领商业落地探索又反哺技术进步。
在AI芯片的硬技术创新之路上,地平线将继续坚持深耕“算法+芯片+工具链”的基础技术平台。
预计地平线将在年内推出新一代车规级AI芯片,以人工智能赋能一切,让每个人的生活更安全、更美好!关于地平线“大牛讲堂”“大牛讲堂”秉承“为技术资讯而生”的理念,旨在通过分享人工智能领域的前沿观点、技术资讯、开发者经验,打造开放的科技。
人工智能芯片。
社区。
正如地平线怀抱开放心态,坚持芯片赋能一样,“大牛讲堂”也希望以同样开放的心态分享知识,与同行在AI道路上共同进步。
近期,我们推出了“地平线核心技术系列公开课程”,希望通过在线分享的方式让更多人了解AI芯片的前沿知识,传播科技的力量!雷锋网 雷锋网 雷锋网版权所有文章,未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-06
06-17
06-17
06-17
06-21
06-17
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态