工业和信息化部:上半年工业经济继续平稳复苏,主要指标平稳增长
06-18
简介:CEVA今日发布第五代成像与计算机视觉DSP产品CEVA-XM6,性能更优、算力更强大、成本更低能源消耗。
深度学习、神经网络和图像/视觉处理已经是计算机科学的重要领域,但它们所依赖的许多工具仍处于起步阶段。
机器学习所需的实时、准确处理数据的能力通常也非常昂贵。
注:本文首发于ANAND TECH,作者Ian Cutress,雷锋网编译,未经许可不得转载。
深度学习、神经网络和图像/视觉处理已经成为一个很大的领域,但其应用仍处于起步阶段。
汽车是这些领域最典型的应用例子。
解决汽车面临的问题需要对硬件和软件同时进行深入的理解和开发,以及实时高精度处理数据的能力。
这为其他机器学习编码开辟了一系列路径,随之而来的就是成本和功耗问题。
CEVA-XM4 DSP希望成为首款支持深度学习的可编程DSP,而就在今天,带有软件生态系统的全新XM6 IP也已推出,效率更高,计算能力更强,还有新的节能专利。
玩IP游戏当CEVA宣布XM4 DSP推理定点算法中预训练的精度与全算法基本一致,误差小于1%时,获得了该领域多项分析师奖项。
CEVA表示,高性能和能效使其在竞争中脱颖而出,并且软件框架取得了初步进展。
该IP于第一季度发布,次年获得许可证,采用该IP生产的第一批硅钢将于今年下线。
此后,CEVA 发布了 CDNN2 平台,这是一种一键式编译工具,可以训练网络并将其转换为适合 CEVA XM IPS 的代码。
新一代XM6集成了前几代XM4的功能,改进了配置,接入了硬件加速器,新增了硬件加速器。
而且,它还保留了CDNN2平台的兼容性。
这样的编码兼容XM4,也可以在XM6上进行高性能运算。
与 ARM 一样,CEVA 也是 IP 业务的一部分,与半导体公司合作,然后将其销售给 OEM。
新产品从创意到实际市场通常需要很长时间,尤其是当安全和汽车等行业快速发展时。
CEVA 将 XM6 转变为可扩展、可编程 DSP,可以通过单一代码库跨越市场,同时利用附加功能来提高功耗、性能并降低成本。
今天发布的产品包括新的 XM6 DSP、CEVA 的新系列成像和视觉软件库、一套新的硬件加速器以及它们与 CDNN2 生态系统的集成。
CDNN2 是一种一键式编译工具,可检测卷积并应用最佳方法通过逻辑块和加速器传输数据。
XM6将支持OpenCL和C++开发工具,以及软件元素,包括CEVA的计算机视觉、神经网络和具有第三方工具的视觉处理库。
该硬件实现了与标准 XM6 内核处理部分的 AXI 连接,以与加速器和内存交互。
XM6 IP包含卷积硬件加速器CDNN Assistant,它允许低功耗固定功能硬件处理神经网络系统的困难部分,例如GoogleNet,校正鱼眼或扭曲镜头上的图像,图像的扭曲是已知的,并且转换功能是固定功能友好的,以及其他第三方硬件加速器。
XM6的两项新硬件功能将有助于大多数图像处理和机器学习算法。
第一个是分散-聚集,或者说能够在一个周期内将L1中缓存的32个地址值读取到向量寄存器中。
CDNN2 编译工具可识别串行代码加载并实现矢量化以实现此功能。
当所需数据通过内存结构分布时,分散-聚集可缩短数据加载时间。
由于 XM6 是可配置 IP,L1 数据存储的大小/相关性在芯片设计级别上是可调的,CEVA 表示此功能对任何 L1 大小都有效。
此阶段处理使用的向量寄存器是宽度为8的VLIW实现器,这样的配置足以满足要求。

第二个功能称为“滑动窗口”数据处理,这种特定的视觉处理技术已获得 CEVA 的专利。
在过程或智能中处理图像的方法有很多,并且算法通常会立即使用平台所需的块或大片像素。
对于智能部分,这些块的数量会重叠,导致图像的不同区域被不同的计算区域重复使用。
CEVA 的方法是保留这些数据,以便进一步分析所需的信息更少。
听起来是不是很简单?在 中,我做了类似的 3D 微分方程分析,确实如此。
令我惊讶的是,它之前还没有被实现用于视觉/图像处理。
如果您有地方存储它,则可以通过重用原始数据来节省时间和精力。
CEVA 声称,XM6 在重矢量工作负载下的性能增益是 XM4 的 3 倍,移植的内核同比平均提升了 2 倍。
在编码方面,XM6 也比 XM4 更容易配置,提供“多 50% 的控制”。
结合特定的 CDNN 硬件加速器(HWA),CEVA 指出生态系统中的卷积层(例如 GoogleNet)消耗了大部分周期。
CDNN HWA 采用这种编码并通过 MAC 为其实现固定硬件,使用 16 位支持实现了 8 倍的性能增益和 95% 的利用率。
CEVA提到,使用12位方法可以节省芯片面积和成本,同时最大限度地减少精度损失,但一些开发人员要求采用完整的16位方法来支持未来的项目,因此选择了16位。
在该领域的汽车图像/视频处理方面,CEVA有两大竞争对手,分别是MobilEye和NVIDIA,后者推出了TX1以方便神经网络的训练和推理。
基于TX1的TSMC 20nm MHz平面处理技术,CEVA表示,他们的内部模拟表明,单机XM6在平台方面的效率提高了25倍,并且比AlexNet和GoogleNet快四倍。
当然,虽然 XM6 也可以在 16nm 或 28nm FinFET 上运行,但这些是其在 20nm 下运行的结果。
这意味着,根据单批 TX1 的已发布数据,在 FP16 下使用 Alexnet 的 XM6 可以以 67 fps 运行,而在 67 fps 下运行时仅需要 5.1 mW,而仅需要 5.1 mW。
在 16FF 中,功率数字可能较低,CEVA 告诉我们,他们的内部测量最初是在 28 nm/16FF 情况下完成的,但他们使用 TX1 在 20 nm 情况下重新测量了它的各个方面。
需要注意的是,TX1多批次值表明比单批次值更好的效率,但是,它无法提供额外的比较值。
CEVA 还使用 DVFS 方案实现功率门控,该方案可在 DSP 或加速器的各个部分空闲时降低功耗。
很明显,NVIDIA 的优势在于其解决方案的可用性以及 CUDA/OpenCL 软件开发,而 CEVA 希望通过一键式软件平台(例如 CDNN2)和改进的硬件(例如 XM6)来实现这两者。
了解哪些半导体合作伙伴和未来的实施工具可以将图像处理与机器学习结合起来。
CEVA指出,智能手机、汽车、安全以及无人机和自动化等商业应用将是主要目标。
来自:ANAND TECH 推荐阅读:微软CEO纳德拉:我们的AI之路将会不一样。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-18
06-18
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态