欢迎您访问第A百科网

PCIe 4.0提升几何?NVIDIA RTX A4000专业显卡驱动测试

100次浏览     发布时间:2024-12-12 10:31:54     编辑: 企业存储技术

今年初我做过PCIe 4.0 SSD的测试。在大多数情况下,由于显卡以前就是工作在PCIe 3.0 x16带宽下,所以4.0的效果可能不是那么明显。比如我看到在有些针对发烧级用户的外星人笔记本上,只把PCIe 4.0 x8分配给显卡用,这应该是为了给高速SSD留出更大空间。简单说,显卡在PCIe 4.0的性能加成还是应用相关的,具体到专业显卡,还是要跑工作站上的图形应用来看看。

在上一篇《暗藏Win7支持?NVIDIA RTX A4000专业显卡另类测试》之后,性能评估我拖的有点久。

其实在每次NVIDIA发布新的工作站显卡时,都会有一些官方宣传的性能提升,比如A4000比上一代的Quadro RTX 4000,乃至上上代P4000快了多少。但这个数往往只是概括的比例,即使提到有的应用软件,你也不知他具体做的哪个操作?用了什么样的模型/场景?显示帧率提高了多少FPS、渲染时间缩短多少秒之类。这就是我自己要实际测试一下的原因。

我第一次在PCIe 4.0平台上的显卡测试。上图中RTX A4000的具体规格,我会在下文中对比分析。

此次我初步规划了3-4篇。如果只是把测试跑完,我发现还花不了太多时间和精力,但每次整理成文分享给大家,多少会有点“煎熬”的过程。

- SPECviewperf 2020v2.0摸底测试,HD和4K分辨率(本文)

- SolidWorks 2021应用测试,含Visualize渲染;

- 更多光线追踪、渲染测试(Blender、V-Ray、KeyShot、OctaneBench)…

在每次测试之前,我也会依据已有参数凭经验先来一个预估,当然测试结果未必都是符合的(这也正是测试有意思的地方)。另外我也会着重于验证新显卡在图形、CUDA计算/RTX渲染等方面的性能特点,设计、散热上有哪些需要注意的地方

涡轮风扇+双侧进风:单槽显卡散热上的改进

上一次测Ampere架构显卡,还是去年的《RTX3090初测:双宽涡轮风扇设计,诀窍与“烦恼”》。大家还记得公版GeForce RTX 3080/3090那样的“穿透式”风扇设计吗?这次的RTX A4000专业显卡则是结合了涡轮和双侧镂空2种特点的散热器,大家想到价值在哪里了吗?

由于4000系列这个级别的专业显卡保持PCIe单插槽宽度,当上一代RTX 4000加入光追之后发热量就有些大了,满载时风扇有点吵,也听到有的用户反映过温度偏高。

我并不怀疑Quadro专业显卡在正常环境温度下的稳定性,但RTX 4000板卡本身的TDP(热设计功耗)是125W,A4000又提高到140W,仍然是单槽空间,散热设计改进势在必行。

以往的涡轮风扇(包括Turbo版RTX 3090那些双槽的)都是只能从显卡正面一侧进风,而此次A4000可以从背面同时吸入空气,这样在多卡高密度环境下的好处更明显——因为以前往往是最上面的卡温度更高。

显卡背面能看出来的,主要是保持AmpereGA10x这一代较小的板卡尺寸,16GBGDDR6显存都放在PCB的正面。

RTX A4000在散热出风口位置的开孔率比之前有提高(对比下图中的RTX4000)。不过毕竟是单槽显卡,不可能达到涡轮版RTX3090那样镂空面积,毕竟后者是350W功耗。

上图为Quadro RTX 4000,在PCIe I/O挡片上的小圆孔看着确实没有新一代A4000的散热排气效果好。

由于上一代RTX4000显卡设计了一个VirtualLink Type-C接口,可以给VR头盔等外设供电,所以功耗可达160W,不得不使用8-pin PCIe供电。A4000老老实实退回4个DP输出,不超过150W所以设计6-pin供电就ok了。

RTX A4000专业显卡上保持STEREO 3D Vision立体眼镜接口(通过一个转3pin miniDIN的配件),以及连接G-Sync同步子卡的接口。这里的G-Sync是为了保持多张显卡、乃至多台主机输出之间的同步刷新相位,在大屏拼接,特别是立体投影和VR这样的场合很重要。(扩展阅读:《NVIDIA Quadro 20周年记:专业显卡的前生今世》)

感谢之前有同行朋友对RTX A4000做了拆解,在上一篇Win7驱动测试中我已经借用过一张照片,这里再借用一张:)我对显卡拆解的兴趣没有年轻时那么大了,因为长得是否好看,都不如实际应用性能重要。

规格篇:如何把Ampere多一倍的CUDA Core用起来

以上规格都来自于NVIDIA官方文档,以及在驱动控制面板里就能看到的频率。

从Quadro M4000开始,一直到P4000、RTX 4000都是8GB显存,如今A4000终于提升到16GB,要不面对GeForceRTX 3060 12GB也有点太没面子了:)关于ECC内存校验支持,我在上一篇中已经实测过了。

RTX A4000和上一代QuadroRTX 5000的显存带宽同为448GB/s,这显然不是偶然为之。我有幸从20年前Quadro开始时就接触这个行业,每次专业显卡换代时性能提升一个档次几乎被不断重演着。既然A4000已经达到了之前5000系列的16GB显存,与RTX 4000做性能对比已经没什么悬念,索性我就直接PK. RTX 5000试试。

有的朋友可能会问:在GeForce游戏卡上,新一代140W功耗的30x0可能达不到上一代230W 20x0的性能?但专业显卡除了驱动优化之外,有些型号硬件效率也较高一些。比如之前125W的RTX 4000,我的用户在有些应用(如:VR)中发现能接近甚至略微超过GeForce RTX 2070(180W)的性能,这还不是传统OpenGL的制造业3D设计。

RTX A4000的CUDA计算核心为6144个,看上去正好是上一代RTX 5000的2倍,RTX 4000就更不用说了。不过NVIDIA也特别注明了是Ampere架构的CUDA Cores。我在《NVIDIA Tensor Core对RTX显卡光线追踪的性能影响》中也介绍过这个“数字游戏”背后的秘密。

由于GA104的白皮书还没有出来,我仍然引用这张GA102白皮书中的GA10x StreamingMultiprocessor(SM)示意图。由于Ampere架构的INT32整数单元也能改用于浮点,所以FP32单精度性能相当于翻倍了。而在INT32计算中可用的CUDA Cores,我理解实际上只有NVIDIA标称的一半。

在有些计算测试中,GPU-Z看到的RTXA 4000 GPU Boost频率比标称的1560MHz还要高。不过每款显卡都有TDP限制,像Tensor Core、RT Core还有显存控制器这些也算发热大户吧。我理解如果多几个单元压力同时跑上去,GPU时钟/传统CUDA算力就要牺牲一些来做取舍了。

之前我看到有人用AIDA64的GPGPU测试来验证Ampere的单精度浮点性能,这次A4000测出的19508 GFLOPS确实与CUDA核心数对等。但不是所有应用/软件都能把翻倍的CUDA核心用起来,如下图说明:

这是以RTX 6000为例。在驱动支持CUDA 11 / 8.6计算架构设计的硬件上,如果运行CUDA 10或更早版本,会由于SM8.6未定义,而只用到每SM单元的64核。也就是INT32不能重定义为FP32来使用。

而当实际Runtime版本为CUDA 11.2时,RTX A6000的10752个CUDA核心就火力全开了,上图显示128 CUDA Cores X 84 Multiprocessors

想发挥这一点,简单地说应用程序需要用新版本CUDA重新编译。对于使用现成商业或开源软件的工作站用户,就要看软件或插件什么时候提供支持了。在后面两篇测试中,我也会尽量用新版本三维设计软件来验证一下。

SPECviewperf测试:RTX A4000为何在4K分辨率下更好?

终于到了测试环节,关于SPECviewperf 2020基准测试工具我去年已经有过介绍。这次使用最新的2.0版本,说是SolidWorks子测试项目有点更新,成绩不适合与之前的版本直接对比。

本次使用的硬件平台是一款Dell支持PCIe 4.0的主机,配置11代Intel Core i7-11700 CPU,并没有特别做性能调优。我使用2款显卡,分别在1920x1080以及3840x2160的分辨率下运行了测试。

由于Quadro RTX 5000还是PCIe 3.0 x16的主机接口,在测试之前我曾猜测RTX A4000可能会因为PCIe 4.0而在较高分辨率下有些获益。大家可以看看下面的测试结果。

首先是在1920x1080(HD)分辨率下,RTX A4000与RTX 5000性能大都比较接近、互有胜负。来自Siemens NX的snx-04一项测试,A4000领先的多一些。

snx-04测试还是由较早版本的Siemens PLM NX 8.0应用程序生成的图形工作负载轨迹创建的,2个模型大小分别为715万、845万个顶点,我在4年前的《性能暴降62%?图形工作站老司机踩坑记》测试中就介绍过。我们本次测试的2款显卡跑这个有点大材小用的感觉,所以帧速度达到400 FPS以上。

3840x2160(4K)分辨率下,我看到RTX A4000在大多数测试项目中处于小幅领先,其中maya-06的差距最大。不过也有点意外,前面1920x1080分辨率下相比RTX 5000的优势又被追回去了。

上面是我在4K测试中的实际截图,不知从这里点开是否还能放那么大。maya-06视图集是根据Autodesk Maya 2017应用程序生成的图形工作负载的轨迹创建的,感觉也有点老了,场景不够复杂所以能跑到200 FPS左右。

SPECviewperf测试集具有一定的全面性,它包含了CAD/AEC/DCC、工程制造/建筑/媒体娱乐/能源/生物医疗行业中的3D设计或重建场景,RTX A4000专业显卡在这一轮初步达到了Quadro RTX 5000同级性能水平。

而对于一名接触工作站的老鸟来说,SPECviewperf只能算一个初步的摸底,我还要跑更多的实际应用软件来测试。图形工作站的一个特点是:三维软件的编辑模式通常是单线程,有些情况下CPU单核性能会成为瓶颈而不是显卡。除了显示加速之外,还有另一个重要的方向——GPU计算/渲染性能需要评估,也就是CUDA、Tensor/RT光线追踪这些方面了。

相关文章

PCIe 4.0提升几何?NVIDIA RTX A4000专业显卡驱动测试

今年初我做过PCIe 4.0 SSD的测试。在大多数情况下,由于显卡以前就是工作在PCIe 3.0 x16带宽下,所以4.0的效果可能不是那么明显。比如我看到在有些针对发烧级用户的外星人笔记本上,只把PCIe 4.0 x8分配给显卡用,这应该是为了给高速SSD留出更大空间。简单说,显卡在PCIe 4

2024-12-12 10:31

c盘忽然爆满怎么处理?快试试这几招

通常情况下系统运行产生的缓存数据、日志以及旧版本恢复文件都会存放至 C 盘。另外新程序默认安装位置、程序产生的数据文件、浏览器下载文件等大多都会默认保存在 C 盘。这是我们 C 盘日渐消瘦的重要原因,那么我们应该如何解决和避免 C 盘爆满的情况发生呢?方法:一、磁盘清理①在开始菜单搜索栏中搜索「磁盘

2024-12-12 10:17

7900x配什么显卡, 推荐四款AMD锐龙R9-7900X/7950X发烧级高性能的独显电脑配置清单

AMD锐龙7000系列处理器R9-7900X/7950X上市有一段时间了,从双十 一下调价格以后,对于追求超高帧率、画质拉满以及超高生产力的发烧级玩家,确实有了超高诱惑力,你会不会也想要动手组装一台AMD新一代旗舰电脑主机呢,来体验一下它无与伦比的性能呢?如果是,那么接下来看一下小编针对AMD锐龙

2024-12-12 10:02

技嘉发布AORUS RTX 2080显卡:多达七个输出接口

RTX 2080、RTX 2080 Ti发布初期,各家的卡都是公版PCB加非公版散热器,所以几乎每一家的顶级序列都没有出来,比如华硕Maxtrix、技嘉Aorus、微星Lightning、EVGA Classified。现在,技嘉率先发布了自己的Aorus RTX 2080 Extreme,开始了旗

2024-12-12 09:46

2060笔记本显卡驱动哪个最好,千万别用驱动精灵,这些方法才稳

显卡驱动,可能是对于一台电脑而言,唯一需要频繁升级的驱动程序了。目前绝大多数电脑硬件的驱动程序都可以通过Windows 10系统升级获得,而唯独显卡驱动是需要手动认真升级的,无论您是台式机用户还是笔记本用户都需要知道这一点,不然可能真的会出大问题!显卡驱动升级不容忽视以笔者前段时间的亲身经历为例,笔

2024-12-12 09:32

solidworks用什么显卡 ,适用于 SOLIDWORKS 的最佳 CPU、 显卡和内存

对于适用于 SOLIDWORKS 的最佳计算机 CPU,存在相当多的混淆。这篇希望能清楚介绍并讨论 SOLIDWORKS 工作站的四大支柱:1. 中央处理器2. 显卡3. 内存4. 贮存SOLIDWORKS 的最佳 CPU 是什么?虽然具体模型会随着时间的推移而改变,但这个问题的总体答案是确定的:S

2024-12-12 09:16

c盘空间不够了怎么办?有2个方法可以解决

  电脑越用越慢,多半是C盘存储空间不足导致的。明明已经是经常清理垃圾了,还会存储空间不足,真是令人费解。分区助手可以了解下,用分区助手可以把C盘的存储空间多分一些容量。下面小编就给大家带来了2种方法,都可以解决C盘存储空间不足的问题。  方法一:调整虚拟内存  鼠标右击【我的电脑】并点击【属性】,

2024-12-12 09:02

8k游戏需要什么显卡 ,能玩但是问题有点大

RTX 3090在近日正式开卖,不少相关的测试结果和用户的测试也是陆续出炉,在英伟达的发布会上,RTX 3090是目前唯一可以在8K分辨率下流畅运行游戏的显卡。但是在实际的测试中似乎并非如此,如果关闭了DLSS功能,采用原生分辨率来运行游戏,那么在大多数3A游戏上都无法保持30以上的帧数。 DL

2024-12-12 08:47

gt730显卡是什么档次的显卡 ?选错就在浪费钱,教你怎么选显卡

显卡是我们装机过程中不可缺失的一个重要部件,无论是独立显卡,还是集成在CPU的核心显卡。便宜的显卡可能是买CPU里面“附赠”的核显,最贵的显卡好几万不等。还在为挑选显卡而烦恼?面对价格区间如此之大的显卡,我们如何从中选择合适自己的产品呢?选错就会浪费钱,几百几千显卡教你怎么选。本期就来带大家了解一下

2024-12-12 08:31

聊聊一代神卡GTX1060 8g显卡:曾经卖3000,现在沦落到卖800

DIY玩家想必都听说,NV显卡逢6必火这一说法。随便列举一下:GTX460、GTX260、9660GT、8600GT……都是各个时代里中流砥柱的存在。直到GTX1060,这款在2016年7月首发的显卡,卖了近三年还未退市,至今还是很多厂商主力销售型号,在显卡历史上绝无仅有。作为普及帕斯卡架构的主力军

2024-12-12 08:17