成都银行正式递交IPO申请 拟发行不超8亿股普通股
06-17
昨天,英伟达在GTC大会上正式发布了新一代Pascal架构显卡。
作为家族中首款张亮相显卡,搭载全新GP核心的Tesla P正式亮相。
据英伟达称,NVIDIA Tesla P将由台积电代工,采用与华为麒麟相同工艺的16nm FinFET打造。
它将拥有多达 1 亿个晶体管和 16GB 位 HBM2 堆栈内存。
在计算能力方面,Tesla P可为深度学习提供5.3 Teraflops的双精度性能、10.6 Teraflops的单精度性能以及21.2 Teraflops的半精度性能。
虽然经过了修剪,但参数依然漂亮。
从这张P与K40、M40的参数对比图可以看出,特斯拉P中的GP其实是一个“阉割版”。
Nvidia官方也承认:标准的GP核心应该内置CUDA核心、纹理单元,并支持最高32GB的HBM2显存;而P中的GP核心则采用了CUDA核心、纹理单元以及减半的16GB HBM2显存。
这直接带来的是单精度运算的提升并不明显——10.6 Teraflops 的计算能力仅比上一代的 7 Teraflops 高出 50%。
虽然50%看起来不少,但要知道近几年CPU几代的性能提升也只有10%左右。
不过,考虑到P从28nm LP工艺到16nm FinFET工艺的跨越以及新架构带来的优化,这个数字与之前15Tflops的预期相去甚远。
不过,这也可能是出于成本考虑。
毕竟P是针对高性能通用计算领域而开发的。
将大部分晶体管性能集中在双精度计算性能上会更划算。
与GK的0.2 Teraflops相比,P5.3 Teraflops的性能提升非常可观。
甚至与2016年的K40相比,也翻了一番。
与友善AMD对比 日前,3月31日,友善AMD还发布了其新一代旗舰计算卡FirePro SX2。
FirePro SX2配备了两个AMD Fiji架构核心和两组4GB HBM显存。
单精度浮点性能为13.9 Teraflops,双精度浮点性能为0.8 Teraflops。
相比之下,P在单精度浮点性能上稍逊一筹。
不过考虑到AMD采用的是双核方案,而且这次P在单精度浮点上也被阉割了,如果是单核方案的话,恐怕还是难逃被Nvidia打的命运。
另一方面,英特尔也在今年 11 月预览了其基准产品第二代 Xeon Phi。
据称,新一代产品代号为“Knights Landing”,同样采用14nm工艺。
搭载72个Silvermont架构核心,每个核心支持4个线程,总计10个线程。
计算方面,双精度浮点性能将达到3 Teraflops,单精度6 Teraflops。
从数据中也可以看出,对于CPU和GPU在一般计算效率上的劣势,即便是老大哥英特尔也无能为力。
应用场景NVIDIA DGX-1 大会上,老黄还公布了一款基于Tesla P的深度学习服务器——NVIDIA DGX-1。
据介绍,DGX-1可以提供Teraflops的深度学习计算性能,比一年前提出的NVIDIA Maxwell架构四路解决方案快12倍。
以前需要25个小时才能完成的训练任务现在可以在2个小时内完成。
虽然性能非常可观,但价格也非常吓人——一台售价为美元(约合人民币)。
NVIDIA Drive PX 2 虽然在GTC大会上,基于GP顶级核心的Tesla P被不少媒体称为“首款Pascal架构产品”。
但事实上,今年1月,基于Pascal架构的Drive PX 2自动驾驶平台就发布了,但当时并未正式宣布。
这次老黄公布了Drive PX 2的具体参数: CPU:8核A57核心 Denver架构核心 GPU:2个Pascal架构独立显卡 内存:8GB LPDDR4 功耗:W 其他特性:水冷 每个显卡核心都是GP核心主频为1.25GHz,配备4GB GDDR5显存,带宽和位宽为80GB/s。
单精度浮点运算性能为8TFLOPS。
现场,英伟达还展示了一款基于该自动驾驶平台的无人驾驶赛车——“Deep Green”。
它将代表车队参加季节性无人驾驶赛车比赛“ROBORACE”。
后记 虽然Nvidia每次发布新品,都能给人眼前一亮的感觉。
不过,如果我们静下心来分析一下,不难看出,英伟达此次发布新品的信心并不如以往。
作为首款采用16nm工艺的产品,P的初期良率应该不会像28nm那么成熟。
另外,现场看到的散热模块依然是经典的单风扇散热,W的TDP也不难想象。
这将是英伟达新一代“高性能核弹”。
虽然老黄在现场讲了很多使用场景,但对于跑分却丝毫没有提升。
这不禁让人想起年初CES上的一幕,当时GP核心刚发布,GM核心却被用来充数,被无情地暴露在台上。
相比年初发布会上AMD现场电脑基准测试,或许Nvidia只是因为黄拿着一块带有散热片的PCB板而不敢这样做(这样人们就看不到里面的核心了)就是这样。
在通用汽车上,英伟达也选择大幅减少双精度计算,以减少热量产生和成本。
不过,这次才刚刚进入16nm工艺,就迈出了这么大的一步,去追求极致的性能。
恐怕进入量产和实际应用后这个问题会更加突出。
。
首当其冲的就是HBM2显存的量产。

毕竟连AMD开创的HBM一代都还没有量产。
已经直接跳转到HBM2了。
AMD只能无视这一点。
毕竟,如果你迈得太大,你就很容易出问题。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态