NVIDIA 最新 GPU 架构Turing详解（四）TURING 已针对数据中心应用程序实现优化

思腾合力（sitonholy）公司成立于2009年，公司总部位于天津市武清区逸仙科学工业园，营销中心位于北京上地金泰富地大厦，思腾合力自有品牌gpu服务器、x86服务器等入围中央政府采购，成为中央政府采购中标厂商。核心产品均通过了ccc认证，且公司获得了is9001质量管理体系认证，目前在南京，武汉，成都，西安，深圳设有分公司，有覆盖全国的营销和售后服务网络，公司定位于视觉计算推动者，专注为视觉计算，深度学习，高性能计算等领域提供gpu服务器，存储，虚拟化，集群等产品和解决方案。联系方式：李静15501226544 nvidia gpu 已成为深度学习训练的标准行业解决方案，而基于 gpu 的推理正越来越受关注，其采用率也在迅速攀升。目前，全球众多领先企业均采用 nvidia gpu 在其数据中心和终端设备上运行推理应用程序。许多传统上在 cpu 运行推理应用程序的企业现都转为采用 nvidia gpu，并在大幅减少投入的同时获得了惊人的性能提升。例如，与超大型数据中心基于 cpu 的服务器相比，pascal 架构上基于 nvidia tesla® p4 gpu 的推理可提供 10 倍的行业领先推理性能，以及 25 倍的能效5。作为首个基于 turing 的 gpu，nvidia tesla t4 gpu 进一步扩大了这一领先优势，并可提供突破性性能和灵活的多精度功能，从 fp32、fp16 到 int8 以及 int4 均可涵盖。
nvidia tesla t4 是针对超大规模数据中心的新兴精尖推理解决方案，可为图像分类与标记、视频分析、自然语言处理、自动语音识别以及智能搜索等各类应用提供通用推理加速。tesla t4 的广泛推理能力使其能够应用于企业解决方案和终端设备。
nvidia tesla t4 gpu 具有 2560 个 cuda 核心和 320 个 tensor 核心，可提供高达 130 tops（万亿次运算/秒）的 int8 运算和多达 260 tops 的 int4 推理性能（请参见附录 a：turing tu104 gpu，了解更多 tesla t4 规格信息）。与基于 cpu 的推理相比，由全新 turing tensor 核心驱动的 tesla t4 可提供高达近40 倍的推理性能6（请参见图 9）。
能效对于数据中心至关重要，tesla t4 的能效高达 cpu 推理的 50 多倍，更比 nvidia 上一代 tesla p4 gpu 高出一倍7（请参见图 10）。
turing gpu 架构不仅配备 turing tensor 核心，还具备有助提高数据中心应用性能的其他特性。其中一些主要特性包括：
▶增强版视频引擎
与之前的 pascal 和 volta gpu 架构相比，turing 能够支持更多的视频解码格式，如 hevc 4:4:4（8/10/12 位）和 vp9（10/12 位）（请参见视频和显示引擎一节，我们已自 25 页起提供详细介绍）。相比基于 pascal 的同等 tesla gpu，turing 的增强版视频引擎能够大幅提升并发视频流的解码数量（请参见表 2）。
▶turing 多进程服务
turing gpu 架构继承了 volta 架构中首次采用的增强版多进程服务 (mps) 特性。相比基于 pascal 的 tesla gpu，tesla t4 所采用的 mps 能够针对小批量改进推理性能，减少启动延迟，提高服务质量，并能为更多并发客户端请求提供支持服务。
▶更高的显存带宽和更大的显存容量
凭借 16 gb 的 gpu 显存和 320 gb/秒的显存带宽，tesla t4 能够提供几乎两倍于其前代 tesla p4 gpu 的显存带宽和显存容量。凭借 tesla t4，超大规模数据中心可以将虚拟桌面基础架构 (vdi) 应用程序的用户密度提高一倍。
turing 不仅能为高端游戏和专业图形注入革命性的全新特性，还可提供多精度计算等新功能，并能显著提高数据中心的性能与能效。随着 nvidia 深度学习平台其他功能的不断改进（如新发布的 tensorrt 5.0 和 cuda 10），基于 nvidia gpu 的推理解决方案将能大幅减小数据中心的成本、规模和功耗。

turing 内存架构和显示特性
本节将会更深入地探讨最重要的新内存层次结构以及 turing 架构的显示子系统特性。内存子系统性能对于应用程序加速至关重要。turing 已改进主内存、缓存内存和压缩架构，能够增加内存带宽并减少访问延迟。gpu 计算特性经改进和增强后，有助加速游戏及众多计算密集型应用程序和算法。全新的显示功能和视频编码及解码功能可支持更高分辨率和 hdr 显示器、更先进的 vr 显示器、日益提升的数据中心视频流要求、8k 视频制作以及其他视频相关应用程序。我们将详细讨论以下特性：
▶ gddr6 显存子系统
▶ l2 缓存和 rop
▶ turing 显存压缩
▶ 视频和显示引擎
▶ usb-c 和 virtuallink
gddr6 显存子系统
随着显示器分辨率不断提高，着色器功能和渲染技术变得愈加复杂，显存带宽和容量将对 gpu 性能发挥更大的作用。为尽可能保持最高帧速率和计算速度，gpu 不仅需要更多显存带宽，还需要巨大的显存容量以提供持续性能。
nvidia 曾与 dram 行业紧密合作，共同开发出全球首款使用 hbm2 和 gddr5x 显存的 gpu。现如今，turing 已成为首个采用 gddr6 显存的 gpu 架构。
gddr6 是高带宽 gddr dram 内存设计的又一次重大飞跃。凭借众多高速 serdes 和 rf 技术带来的改进，turing gpu 中的 gddr6 存储器接口电路已实现全面重新设计，在速度、能效和降噪方面均得到了提升。这一新型接口设计采用多个新电路并能提升信号训练效果，从而大幅降低由工艺、温度和电源电压引起的噪声和波动。该显存系统可在利用率较低的时段，大量采用时钟门控以显著降低功耗，从而大幅提升整体能效。与 pascal gpu 中所用的 gddr5x 显存相比，turing 的 gddr6 显存子系统可提供 14 gbps 的信号传输速率，并将能效提升 20%。
实现这一加速需要进行端到端优化。通过使用广泛的信号和电源完整性模拟，nvidia 已为 turing 精心打造出独有的封装和电路板设计，从而满足更高的速度要求。举例来说，该设计已将信号串扰率降低 40%，而信号串扰正是对大型内存系统造成的最严重损害之一。
为达到 14 gbps 的传输速度，我们已对内存子系统的各个方面进行精心设计，以满足实现此种高频运作所需的严苛标准。设计期间，我们仔细优化了每个信号，旨在提供尽可能清晰的内存接口信号（请参见图 11.）。
l2缓存和 rop
除配备新的 gddr6 显存子系统以外，turing gpu 还已添加更大容量且更快速的 l2 缓存。tu102 gpu 附带 6 mb l2 缓存，相比 titan xp 中使用的上一代 gp102 gpu 所提供的 3 mb l2 缓存，其已高出一倍。tu102 还可提供远高于 gp102 的 l2 缓存带宽。
与上一代 nvidia gpu 类似，turing 中的每个 rop 分区均包含 8 个 rop 单元，且每个单元能够处理一个单色样本。一个完整的 tu102 芯片包含 12 个 rop 分区，共计 96 个 rop 单元。

turing 显存压缩
nvidia gpu 使用几种无损显存压缩技术，旨在将数据写入帧缓存时降低显存带宽需求。gpu 的压缩引擎采用各类不同算法，能够根据数据特点确定最有效的压缩方式。这有助减少写入显存及从显存传输至 l2 缓存的数据量，并能降低客户端（如纹理单元）和帧缓存之间传输的数据量。turing 已对 pascal 的精尖显存压缩算法作出深入改进，不仅能增加 gddr6 的原始数据传输速率，还可进一步提高有效带宽。如图 12 所示，原始带宽增加且流量减少会导致 turing 的有效带宽比 pascal 高出 50%，这对于保持架构平衡以及支持新型 turing sm 架构提供的性能至关重要。
视频和显示引擎
消费者对高分辨率显示器的需求逐年增加。例如，8k 分辨率 (7680 x 4320) 所需像素相当于 4k 分辨率 (3820 x 2160) 的 4 倍。游戏玩家和硬件迷还希望显示器能够在分辨率和刷新率上实现双提升，从而获得尽可能流畅的图像。
turing gpu 具有专为新一波显示器设计的全新显示引擎，可支持更高分辨率、更快刷新率以及 hdr。turing 支持 displayport 1.4a，可在 60 hz 刷新率下实现 8k 分辨率，此外还已加入 vesa 的显示串流压缩 (dsc) 1.2 技术，能够提供视觉无损的更高压缩。表 3 显示 turing gpu 中的 displayport 支持。

rs 允许开发者动态控制着色速率，使其既可每 16 像素只进行一次着色，也可对每个像素进行多达 8 次着色。该款应用程序使用着色率表面和每个基元（三角形）值的组合来指定着色率。vrs 是一款非常强大的工具，能够帮助开发者更有效地进行着色处理，在全分辨率着色不会为图像质量带来任何明显提升的屏幕区域减少着色工作量，进而提高帧速率。我们已找到几种基于 vrs 的算法，从而能够根据内容的细节级别（内容自适应着色）、内容移动速率（移动自适应着色）并针对 vr 应用程序、镜头分辨率和眼睛位置（注视点渲染），采用不同的算法。
turing gpu 可在 60 hz 刷新率下驱动两个 8k 显示器，每个显示器通过一根线缆连接。该 gpu 也可通过 usb-c 上发送 8k 分辨率（请参见usb-c 和 virtuallink 一节，我们已自 27 页起提供详细介绍）。
turing 的全新显示引擎支持在显示流水线中实施原生 hdr 处理。此外，hdr 流水线中还加入了色调映射。色调映射是一项在标准动态范围显示器上近似显示高动态范围图像的技术。turing 支持 itu-r 建议书 bt.2100 标准定义的色调映射公式，能够避免不同的 hdr 显示器产生色彩偏移。
turing gpu 还附带增强版 nvenc 编码器单元，能够以 30 fps 的帧速率支持 h.265 (hevc) 8k 编码。新型 nvenc 编码器分别能在 hevc 和 h.264 模式下节约高达 25% 和 15% 的比特率。
turing 的新型 nvdec 解码器已进行升级，现可支持解码 hevc 4:4:4 8/10/12 位视频流；此外，与 pascal gp102/107/108 和 volta gv100 gpu 类似，其还可支持 vp9 10/12 位 hdr。
相较上一代 pascal gpu 和软件编码器，turing 已提升编码质量。图 13 显示在常见的 twitch 和 youtube 流设置下，turing 的视频编码器质量优于采用快速设置的 x264 软件编码器，能够大幅降低 cpu 利用率。在典型的 cpu 设置上进行编码时，4k 流式传输会对其产生过于沉重的工作负载，但 turing 的编码器却能突破这一障碍。
rs 允许开发者动态控制着色速率，使其既可每 16 像素只进行一次着色，也可对每个像素进行多达 8 次着色。该款应用程序使用着色率表面和每个基元（三角形）值的组合来指定着色率。vrs 是一款非常强大的工具，能够帮助开发者更有效地进行着色处理，在全分辨率着色不会为图像质量带来任何明显提升的屏幕区域减少着色工作量，进而提高帧速率。我们已找到几种基于 vrs 的算法，从而能够根据内容的细节级别（内容自适应着色）、内容移动速率（移动自适应着色）并针对 vr 应用程序、镜头分辨率和眼睛位置（注视点渲染），采用不同的算法。
turing gpu 可在 60 hz 刷新率下驱动两个 8k 显示器，每个显示器通过一根线缆连接。该 gpu 也可通过 usb-c 上发送 8k 分辨率（请参见usb-c 和 virtuallink 一节，我们已自 27 页起提供详细介绍）。
turing 的全新显示引擎支持在显示流水线中实施原生 hdr 处理。此外，hdr 流水线中还加入了色调映射。色调映射是一项在标准动态范围显示器上近似显示高动态范围图像的技术。turing 支持 itu-r 建议书 bt.2100 标准定义的色调映射公式，能够避免不同的 hdr 显示器产生色彩偏移。
turing gpu 还附带增强版 nvenc 编码器单元，能够以 30 fps 的帧速率支持 h.265 (hevc) 8k 编码。新型 nvenc 编码器分别能在 hevc 和 h.264 模式下节约高达 25% 和 15% 的比特率。
turing 的新型 nvdec 解码器已进行升级，现可支持解码 hevc 4:4:4 8/10/12 位视频流；此外，与 pascal gp102/107/108 和 volta gv100 gpu 类似，其还可支持 vp9 10/12 位 hdr。
相较上一代 pascal gpu 和软件编码器，turing 已提升编码质量。图 13 显示在常见的 twitch 和 youtube 流设置下，turing 的视频编码器质量优于采用快速设置的 x264 软件编码器，能够大幅降低 cpu 利用率。在典型的 cpu 设置上进行编码时，4k 流式传输会对其产生过于沉重的工作负载，但 turing 的编码器却能突破这一障碍。
usb-c 和 virtuallink
目前，在 pc 上接入 vr 头盔时需在头盔和系统之间连接多条线缆：一条显示器线缆，用于将 gpu 图像数据发送至头盔中的两个显示器；一条电源线缆，用于为头盔供电；一条 usb 连接线，用于传输摄像头流及回读头盔中的头部姿势信息（以更新 gpu 渲染的帧画面）。多条线缆会降低最终用户的舒适度，并会导致其在使用头盔时无法自如移动。为适应这些线缆，头盔制造商需要加入复杂设计，并增大头盔体积。
为解决该问题，我们在设计 turing gpu 时已针对 usb type-c™ 和 virtuallink™ 添加硬件支持。virtuallink 是一种新的开放式行业标准，涵盖领先的硅、软件和头盔制造商，并由 nvidia、oculus、valve、microsoft 和 amd 主导。
virtuallink 专为满足当前和新一代 vr 头盔的连接需求而开发。virtuallink 采用一种全新的 usb-c 替代模式，旨在通过单个 usb-c 接口提供驱动 vr 头盔所需的供电、显示和数据传输条件。
virtuallink 可同时支持四通道高比特率 3 (hbr3) 显示接口，并能与头盔实现超高速 usb 3 连接，以便追踪运动。相比之下，usb-c 仅支持四通道 hbr3 显示接口或两通道 hbr3 显示接口与两通道超高速 usb 3 的组合。
virtuallink 不仅能简化当前设置 vr 头盔的繁琐流程，还将为更多设备引入 vr。单一接口解决方案可将 vr 引入仅能容纳单个小体积 usb-c 接口的小型设备（如轻薄笔记本电脑）而非当今的 vr 基础设施，因为后者需要的是能够配备多个接口的 pc。

nvlink 改进 sli
在 pascal gpu 架构之前，nvidia gpu 将单个多输入输出 (mio) 接口用作 sli 桥接器，以允许第二个（第三或第四个）gpu 将其最终渲染帧输出传输到以物理方式连接至显示器的主 gpu。pascal 通过使用更快速的双 mio 接口增强 sli 桥接器，进而增加 gpu 间的带宽，实现更高分辨率输出，并为 nvidia surround 提供多个高分辨率显示器。
turing tu102 和 tu104 gpu 采用 nvlink 而非 mio 和 pcie 接口来实现 sli gpu 间数据传输。turing tu102 gpu 具有两个 x8 第二代 nvlink 链路，而 turing tu104 具有一个 x8 第二代 nvlink 链路。每个链路可在两个 gpu 之间的每个方向上提供 25 gb/秒的峰值带宽（50 gb/秒的双向带宽）。tu102 中的两个链路可在每个方向上提供 50 gb/秒的单向带宽，或 100 gb/秒的双向带宽。配备 nvlink 的 turing gpu 可支持双路 sli，但不支持 3 路和 4 路 sli 配置。相比前几代 sli 桥接器，新型 nvlink 桥接器已增加带宽，能够将先前无法实现的高级显示器拓扑变为现实（请参见图 14）。

NVIDIA 最新 GPU 架构Turing详解（四）TURING 已针对数据中心应用程序实现优化

VIP推荐