上一篇我们讲了CPU是什么?接下来我觉得显卡分量更重些,就讲GPU了。我以R9 290X和GTX 780公版为例。
1、GPU的构成
(1)主频:R9 290X为1000MHZ,GTX780则为863MHZ。(在同一架构下,频率越高,性能越强),主频即是显卡核心频率,核心工作时的频率。
PS:往往超核心带来的性能提升更明显,现在估计GDDR5时代已经不是这样的了。
(2)制造工艺:与CPU相同,同一单位下数字越小,工艺越先进,比如28NM比40NM要先进。
PS:不断提升工艺可以使得相同核心面积下装的晶体管数量更加的多,在相同功耗下提升的性能也愈加明显。例如,40NM工艺的HD6970 拥有26.4亿个晶体管,到了28NM工艺的HD7970就有43亿个晶体管。
(3)显存(帧缓冲存储器):(这里指的是显卡板载的显存容量),用来存储要处理的图形信息的部件,每个像素点都以4至32甚至64位的数据来控制它的亮度和色彩,这些数据必须通过显存来保存,再交由显示芯片和CPU调配(就和CPU的L1缓存一样,这就是为什么显存最好是板载而不是共享内存的原因,传输速度可以更加的快),每一代显存标准的升级,主要就是对于显存速度,位宽和一些问题的修正。例如GDDR2-3-4(夭折)-5。GDDR4我记得就ATI有一款显卡,然后就没别的卡了,夭折了。GDDR4和其它显存代数不一样并不是直接增加显存位宽,而是走的其他路线,成本过高,然后被GDDR3的正统升级版GDDR5取代了。
(4)显存位宽:显存位宽是显存在一个时钟周期内所能传送数据的位数,位数越大则瞬间所能传输的数据量越大。位宽不足大概就是(但也跟频率有关系):每秒钟有100个单位通过,但是路只能每秒钟同时容纳50个单位。多由于显存过大,然而频率不高,位宽不足造成。例如作为上一代神卡9400GT的接班人GT440狂牛版。上届神卡冠军9400GT高达2GB的显存,不过这次GT440狂牛版把显存加到了4个GB,拿4GB大显存骗消费者就是这个道理。2014年1月老机升级显卡是选新出的狂牛还是淘1块2手卡,我来做个对比:9600GT性能为9400GT的4倍。GT440 D5版,比9600GT略差一些,比9800GT差的远。GT440 D3版,被9600GT秒,和9800gt没法比。
(5)显存速度,ns为单位,例如GDDR4夭折就是因为频率只比GDDR3提升了一点,但延迟极大,0.9NS,目前则多以0.4ns和0.3ns的GDDR5显存。
(6)显存频率:即等效工作频率,等效工作频率(MHz)=1000×n/(显存速度)。n因显存类型不同而不同,如果是GDDR3显存则n=2;GDDR5显存则n=4。这就是在驱动中GDDR5 4800MHZ显存的显卡,只标注1200MHZ的原因。显存频率与显存时钟周期有关。
(7)RAMDAC频率:是随机存取内存数字~模拟转换器,诞生原因是因为显卡生成的信号都是以数字来表示的,但是所有的CRT显示器都是以模拟方式进行工作的,需要一个转换设备。RAMDAC的转换速率以MHz表示,它决定了刷新频率的高低,工作速度越高,频带越宽,高分辨率时的画面质量越好。该数值决定了在足够的显存下,显卡最高支持的分辨率和刷新率。目前基本上都不用CRT显示器,RAMDAC频率也已经慢慢淡出了历史的舞台。
PS:现在显卡基本上都是400MHZ的RAMDAC频率了。
(8)显卡接口:
A、D-SUB(VGA)接口:即VGA接口,共有3排15针的信号线,传输的是一种模拟信号(需要靠RAMDAC),不支持即插即用(但生活中并非如此)。
B、DVI接口:分为DVI-D,DVI-I,DVI-A三大类,此外还有更加细致的划分。DVI-D只有数字接口,DVI-I有数字和模拟接口,支持即插即用。
C、S-Video:忽略
D、HDMI:HDMI接口传输带宽大,输出分辨率高。
E:DP接口:DisplayPort接口,DisplayPort也是一种高清数字显示接口标准,而且它是免费使用的,带宽极高。
F:AV接口:忽略。
2、架构
要想讲GCN(7970,r9290x)架构和开普勒(gtx780)架构,呢么必须得追溯到费米架构以及Cayman架构。
(1)费米架构:FP32:即全精度渲染。FP64:双精度浮点。INT: 整型浮点单元。SFU:特殊函数处理单元处理超越函数,包括sin、cosine、求倒数、平方根。LD/ST:载入与存储单元。4个之前讲到的SM单元,组合在一起就叫做GPC群组,也可以说是1个核心。此外值得一提的是,一个小小的核心里面还集成了许多ROP单元和TMU。以及一个至关重要的玩意:光栅引擎(这在今后DX方面会说明)
PS(费米架构合计):
A、Stream Processor:SP,流处理器,直接将多媒体的图形数据流映射到流处理器上进行处理。流处理器可以成组或者大数量的运行,所以并行处理能及极强。
B、CUDA核心,即从前的流处理器(SP),但一个CUDA核心却有着3-5个SP的性能,这也是为什么当年N卡和A卡流处理器喜欢1:4的原因。
C、Raster Engine:光栅引擎
D、Polymorph Engine:多边形引擎(多形体引擎),负责属性提取和细分曲面,顶点获取、Tessellation、观察口转换、属性设置以及流式输出,它使三角形以及Tessellation以及流出方面有着质的提升。
E、GPC:图形处理团簇,在费米架构中,4个SM单元为一个GPC。
F、ROP(ROPs):光栅化处理单元,,负责游戏中的光线和反射运算,兼顾AA、高分辨率、烟雾、火焰等效果。在费米架构中,它是集成在每个SM单元内的。
PS:Raster Engine:以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。光栅化其实是一种将几何图元变为二维图像的过程。
(2)Cayman,6900系列的架构
A、Tessellation:这个有必要提一下,AMD多年研发技术。即细分曲面技术,能够利用GPU硬件加速,将现有3D模型的三角形拆分得更细小、更细致,也就是大大增加三角形数量,使得渲染对象的表面和边缘更平滑、更精细,仅支持DX11+。
B、hierarchical Z:一种技术的管理单元。
C、VERTEX ASSENBLER:处理,汇编几何顶点的单元。
而接下来的东东才是比较重要的:在Cayman中,流处理器是以这样的形式SIMD(Single Instruction Multiple Data),单指令多数据。而在SIMD下,还抛弃了VLIW5架构的传统引入了VLIW4线程处理器。就是在一个周期内完成4个ALU的运算量(就是一个周期内能做4道题目一样)。即4D vector(4D指令),而VLIW5架构并非是真正的5D,而是4D+1D。在评测杂志中看到4D简单地说就是4个ALU运算的方式。像这样的设计方式,也成功的使A卡CrossFireX交火效率脱离了1+1=2,变成了1+1≥2,从而创造出了许多辉煌,例如6850,6870,6950,6970以及6990交火。
PS:
A、VLIW Core:超长指令字处理器内核:VLIW:超长指令。
B、SIMD:总共有SISD、MIMD、SIMD、MISD。SISD: 单指令流 多数据流。MISD:多指令流单数据流。SIMD:单指令流多数据流。MIMD:多指令流多数据流。
显卡架构到这里基本上就算是结束了,如果能看懂以上文字内容,基本上再去看今后的开普勒架构,南方群岛架构就会变得异常简单。
3、GPU工作原理
(1)从PCI bus进入GPU——将CPU送来的数据送到GPU里面进行处理。
(2)从GPU进入显存——将芯片处理完的数据送到显存。
(3)从显存进入DAC——由显存读取出数据再送到RAMDAC(随机读写存储数模转换器),RAMDAC的作用是将数字信号转换成模拟信号。
(4)从DAC进入显示器——将转换完的模拟信号送到显示屏。
GPU内部是没有指令集的,所以,GPU内部也就不存在指令的概念。对GPU的调度,都是由运行在CPU中的GPU驱动程序来完成的。GPU就完全是一片并行矢量计算器。屏幕上显示的都是一个个像素点,每个像素都有两个最基本的属性——颜色,位置。颜色包含四个维度——R,G,B,A(透明度);位置包含四个维度——X,Y,Z,W(相对坐标)。即每个像素是由两个四维矢量来定义的。GPU就是用来做这种矢量运算的。这也是为什么AMD一直采用4+1D或4D的结构设计GPU。显存内部都是大量的材质,纹理,阴影等图形素材,GPU直接调用或存储。所有指令层级的任务一律由CPU完成;硬件层面上的调度,数据的处理,在GPU内完成。

- 评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)
-
