IEA报告:2021年全球光伏将新增156GW!2022年200GW!
06-08
进入大模型时代,整个社会对算力的需求被推向前所未有的水平。
今年1月,微软联合创始人比尔·盖茨与OpenAI首席执行官山姆·奥特曼进行了对话。
奥特曼在谈话中表示,人工智能将引发人类历史上“最快”的技术革命,而人类可能还没有准备好。
我们能多快适应这种变化?奥特曼预测这项技术将迅速发展,让系统的计算能力达到 GPT-4 的 10 万或 10,000 倍。
简单来说,Nvidia GPU芯片对于人工智能计算来说还远远不够。
今年1月,Meta首席执行官扎克伯格宣布,到今年年底,大约需要35万台NVIDIA H单元。
算上其他GPU,总算力水平相当于近60万个NVIDIA H单元,60万个NVIDIA H单元的采购成本还是保守的。
估计约为90亿美元。
在中国市场,不仅阿里巴巴、腾讯等互联网、云公司一直在囤积GPU,就连莲花味精这样的上市公司也斥资6.93亿采购Nvidia HGPU,更不用说建智旗下的各种计算中心了。
为了应对全球GPU供应短缺和美国对GPU出口限制,更重要的是为了降低AI场景的成本,市场上出现了各种类型的异构AI芯片。
由于大模型AI对全社会的重要性,以及各行各业智能计算中心建设的加速,也引发了全社会学习异构AI芯片的热潮。
即使是企业领导者也需要了解一些关于异构AI芯片的知识。
01 让我们从基本的计算机原理开始。
在了解CPU、GPU等异构AI芯片之前,我们先了解一下计算机的基本原理。
现代计算机由三个主要部分组成:处理器、存储器和I/O(输入/输出)设备。
在处理器方面,一直遵循冯·诺依曼架构,即处理器也是一个系统。
处理器也称为中央处理单元(CentralProcessingUnit),即CPU。
编程器通过输入设备发出指令,由CPU和内存处理,然后将处理结果发送到输出设备。
ISA指令集架构是处理器与程序员交互的方式。
指令集是完整的处理器指令集。
架构是处理器系统的构建方式。
特定的处理器需要配备相应的指令集才能与程序进行交互。
员工互动。
32位处理器是指可以处理32位指令和数据的CPU和计算机架构; 64位处理器是指可以处理64位指令和数据的CPU和计算机架构。
RISC代表精简指令集计算机架构、CISC代表复杂指令集计算机架构、英特尔物联网设备等)都是典型的RISC架构。
RISC-V是一种基于RISC原理的开源指令集架构。
RISC-V指令集可以自由用于任何目的,允许任何人设计、制造和销售RISC-V芯片和软件。
CISC架构是适合通用计算任务的计算机。
由于要完成各种通用计算任务,必然会出现指令集的冗余。
因此,CISC指令集中只有20%左右的指令是经常使用的,其余80%的指令是不经常使用的。
这些不经常使用。
使用的特殊指令使得CPU的设计变得非常复杂,也导致CPU面积变得越来越大。
RISC架构仅包含处理器常用的指令。
对于不常见的操作,通过执行多条公共指令可以达到同样的效果。
02 基础芯片,从CPU到ASIC CPU 了解了这些最基本的概念后,我们再来看看最基本的异构芯片:CPU、GPU、FPGA、ASIC。
CPU通常指的是Intel X86,AMD也生产X86架构的CPU。
X86架构最早出现在20世纪70年代末的Intel处理器上,后来发展到6、6、6等,逐渐演变成现代的X86架构。
X86架构的特点包括属于CISC架构。
X86架构在个人计算机、服务器和工作站市场占据主流地位。
兼容性高,可以运行大量软件和操作系统。
软件无需重写或修改即可移植。
X86架构引入64位处理器可以处理更大的内容和数据。
由于X86架构支持多核处理并且适合运行虚拟机,因此在虚拟化和云计算方面也得到了广泛的应用。
当然,在Intel和AMD之前有大型机和小型机的时代。
整个现代PC产业主要指基于X86的个人电脑、服务器和工作站,以及基于这些硬件的软硬件生态系统。
整个现代PC产业和之前的小型机产业都是IBM大型机技术降维应用的红利。
20世纪90年代初,IBM投资了50亿美元用于大型机的开发,相当于今天近1亿美元的投资。
2000年,第一位人类宇航员登陆月球,在阿波罗登月计划中,IBM大型机系统做出了重要贡献。
IBM大型机技术孵化了后来的小型机以及整个现代PC和PC服务器行业。
与PC和PC服务器不同,大型机和小型机是高度集成的系统。
它们不像X86那样易于使用、模块化和工业标准化,从而支持庞大的软件产业和用户群。
如今,大型机和小型机仍在不断发展和使用,但其用户群主要集中在*金??融机构或对性能和安全性要求极高的企业或政府机构。
大型机和小型机的CPU处理器与X86架构的CPU处理器不同。
目前,IBM 维护并推出了新的大型机和小型机 CPU。
在冯·诺依曼架构下,CPU也是一个系统,到今天已经发展成为超大规模的集成电路。
从单核到双核以及包含更多核心的CPU,X86 CPU变得越来越复杂和高性能。
最新的第五代Intel Xeon服务器CPU最高支持64核,AMD发布的第四代EPYC(霄龙)服务器CPU最高支持96核;并且根据相关披露,即将推出的第六代Xeon服务器CPU将最多支持一个核心(能效核心)。
当然,CPU性能不能仅由核心数量来决定。
Intel和AMD对核心的定义也不同。
但一个CPU处理器将容纳更多的核心,甚至异构芯片,这将是CPU的发展趋势。
PCIe是一种高速串行计算机扩展总线标准。
是目前芯片间互连的主流高速总线。
它提供主板上的各种外设和扩展卡与CPU之间的高速连接。
PCIe是从PCI发展而来的。
PCI外围组件互连总线由Intel于2007年推出,当时允许在计算机中安装多达10个符合PCI标准的扩展卡。
PCIe 扩展了 PCI 的功能,支持逻辑上隔离的多个虚拟设备。
ASIC 又回到了指令集和指令集架构。
在现代计算机行业中,根据指令的复杂程度,处理器分为CPU、协处理器、GPU(图形处理单元)、FPGA(现场可编程门阵列)、DSA(领域特定加速器)和ASIC(专用集成)。
电路)等,按照从CPU到ASIC的顺序,通用性、灵活性和成本不断降低,面积越来越小,但响应特定计算场景的性能不断提高,其中CPU是一个处理器可以独立运行,其他处理器需要借助CPU来运行。
接下来,我们来看看ASIC专用集成电路。
ASIC和CPU可以说是天平的两端。
CPU是软硬件解耦的架构,而ASIC是软硬件高度集成的架构。
ASIC 是针对特定应用而设计的,并且可以进行定制以满足特定应用的需求。
与通用芯片相比,ASIC 具有更高的效率和更低的功耗。
由于ASIC是完全不可编程的定制处理引擎,因此理论上它们具有最复杂的“指令”和最高的性能效率。
由于每个ASIC可以覆盖非常小的场景,因此需要大量的ASIC处理引擎来覆盖各种场景。
例如,网络交换机中常采用ASIC芯片,直接在交换机所有端口之间并行转发数据,以提高交换机的高速数据转发性能; ASIC还应用于各种汽车系统,包括ADAS高级驾驶辅助系统、发动机控制单元和信息娱乐系统等; ASIC芯片还广泛应用于消费电子设备、医疗设备和工业控制系统。
进入人工智能时代,ASIC芯片也应用于NPU、TPU等人工智能算法专用芯片。
由于ASIC厂商众多,不同的ASIC厂商推出了各种编程语言,可谓多种多样、各不相同。
因此,ASIC芯片很难培育出庞大的生态系统。
FPGA理解ASIC,那么FPGA就是介于CPU和ASIC之间的集成电路。
FPGA又称现场可编程门阵列,是ASIC领域的半定制电路,是一种可重新编程的器??件。
一般来说,FPGA比ASIC速度慢,实现相同功能的电路面积比ASIC大,功耗和成本也比ASIC高,但可以快速完成并可以修改。
由于其可重新编程的特性,FPGA 比 ASIC 更加通用。
FPGA不需要像ASIC设计那样经历数百万美元的流片阶段,也不需要承担流片失败的风险。
因此,FPGA常用于ASIC芯片的验证。
FPGA本质上是并行计算。
这种并行处理能力使得FPGA在数字信号处理、图像处理和加密等高速数据处理应用中表现良好。
同样,在人工智能时代,FPGA也用于人工智能算法处理。
特别是AI算法的创新对硬件计算能力和灵活性有很高的要求,而FPGA满足了这样的要求。
DSA 接下来,让我们看看 DSA 的特定领域加速器。
DSA是针对特定领域定制的可编程处理器,可用于加速某些应用程序,以实现更好的性能和成本效益。
DSA 介于 FPGA 和 ASIC 之间。
ASIC是一种软件和硬件高度集成的定制芯片,根本无法编程。
FPGA是针对不同领域的可编程处理器,而DSA是专门针对特定领域的可编程处理器。
可见DSA的灵活性介于FPGA和ASIC之间,成本和功耗也介于两者之间。
DSA的优势在于它可以针对特定领域,形成自己的生态,只要那个领域的市场足够大,比如人工智能计算加速、图形渲染加速等。
从某种程度上来说,GPU是一个基于DSA思想设计和开发的产品。
随着摩尔定律的到期,现代计算机专家认为DSA可以提高CPU处理器的效率和速度。
2016年,图灵奖获得者John Hennessy和David Patterson联合发表了《计算机架构的黄金时代》一文,指出由于当前通用计算的性能瓶颈,需要针对不同的应用场景开发有针对性的优化架构。
他们给出的解决方案是DSA。
DSA 既是一种架构,也是一种设计理念。
狭义的DSA是基于ASIC实现的,广义的DSA是基于FPGA实现的,或者是基于更小的Chiplet集成的。
所谓chiplet,就是将大芯片die切割成小芯片。
切割后的小芯片是已经完成设计、制造和测试过程的成品小芯片。
它们只需要经过一次包装过程就可以使用,并且可以重复使用。
与其他芯片一起使用,还可以集成许多Chiplet以实现新的功能。
DNN深度神经网络是DSA应用的重要领域。
GPU 那么让我们来看看目前最流行的 GPU。
GPU又称图形处理器,目前分为消费级GPU和数据中心级GPU。
消费级GPU主要应用于游戏电脑、设计、3D显示等场景,而数据中心级GPU主要应用于人工智能场景。
CPU 和 GPU* 的区别之一是 CPU 基于串行计算,而 GPU 基于并行计算,这使得 GPU 天然适合基于并行计算的人工智能算法。
GPU作为DSA的一种,专门针对需要大规模并行计算的图形处理而设计。
因此,GPU的核心数量通常远远超过CPU,核心数量甚至可以更多。
然而,GPU 的通用应用并不像 CPU 那么多。
计算组件。
典型的GPU厂商有NVIDIA、AMD、Intel等。
*现代通用GPU架构(即GPGPU)是NVIDIA在2016年推出的,也就是Tesla。
Tesla采用全新的CUDA架构,支持C语言进行GPU编程,可用于通用数据的并行计算,标志着GPU从专用图形处理器向通用数据并行处理器转变的开始。
随着NVIDIA发布NVIDIA GPU专用编程库CUDA,AMD、Apple等公司推出了开源OpenCL(Op??enCom联合创始人gLanguage,开放设计语言),这是一个针对CPU/GPU/等异构平台进行编程和设计的框架。
DSP/FPGA等)、GPU开始广泛应用于通用计算领域,如数值分析、海量数据处理、金融分析等。
近年来,随着人工智能的普及,GPGPU也得到了广泛的应用在深度学习算法等人工智能计算中。
数据中心级GPU是为了人工智能的智能计算需求而诞生的。
Nvidia A和H被认为是最强大的数据中心级GPU,也是各大人工智能公司、云厂商、互联网公司竞相争夺的资源。
协处理器(Co-processor) 所谓协处理器,顾名思义,就是辅助CPU中央处理器完成各种计算任务的处理器,特指为辅助中央处理器完成以下处理任务而开发和应用的处理器:无法执行或执行效率或效果较低。

数学协处理器、图形协处理器、音频协处理器、网络协处理器或手机上运行的协处理器等处理器。
协处理器通常集成在计算机主板或CPU中,也可以外接作为外部设备连接到主板。
比如早期的图形协处理器Intel 6,以及如今的Intel GPU都开始具备更强的能力来应对Nvidia在GPU市场的垄断。
(作者:北电数智(公众号同名)))【本文由投资界合作伙伴微信公众号授权:博科。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态,提供一站式资讯服务,实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。
趋势和行业变化,以及对未来技术趋势的洞察。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-21
06-06
06-17
06-18
06-17
06-17
06-17
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投