英伟达 H100 数据手册之张量核心GPU
编辑:宝星微科技 | 发布时间:2023-06-03 10:49 | 浏览次数:251
一个数量级的飞跃加速计算
NVIDIA H100 Tensor Core GPU为每个工作负载提供前所未有的性能、可扩展性和安全性。使用NVIDIA®NVLink®交换系统,可以连接多达256个H100 gpu以加速百亿亿级工作负载,而专用Transformer Engine支持万亿参数语言模型。H100采用NVIDIA Hopper™架构的突破性创新,提供业界领先的会话AI,将大型语言模型的速度提高了30倍
H100 数据手册
nvidia-h100-datasheet-2287922-web
安全地加速从企业到百亿亿级的工作负载
NVIDIA H100 gpu具有第四代张量内核和具有FP8精度的Transformer引擎,进一步扩展了NVIDIA在AI市场的领先地位,在大型语言模型上具有高达9倍的训练速度和令人难以置信的30倍推理加速。对于高性能计算(HPC)应用,H100将FP64的每秒浮点运算(FLOPS)提高了三倍,并增加了动态编程(DPX)指令,从而提供高达7倍的性能。凭借第二代多实例GPU (MIG)、内置NVIDIA机密计算和NVIDIA NVLink交换系统,H100可以安全地加速每个数据中心的所有工作负载,从企业级到百亿亿级。
H100是完整的NVIDIA数据中心解决方案的一部分,该解决方案集成了硬件、网络、软件、库以及NVIDIA NGC™目录中优化的AI模型和应用程序的构建模块。它代表了数据中心最强大的端到端人工智能和高性能计算平台,使研究人员能够提供真实世界的结果,并大规模地将解决方案部署到生产中。
NVIDIA Hopper的技术突破
世界最先进的芯片
H100是迄今为止世界上最先进的芯片,采用为NVIDIA加速计算需求量身定制的尖端台积电4N工艺,内置800亿个晶体管。它在加速人工智能、高性能计算、内存带宽、互连和数据中心规模的通信方面取得了重大进展。
变压器引擎
Transformer Engine使用软件和Hopper Tensor Core技术,旨在加速从世界上最重要的AI模型构建块(变压器)构建的模型的训练。Hopper Tensor Cores可以应用混合FP8和FP16精度,以显着加速变压器的AI计算。
Nvlink开关系统
NVLink交换系统支持跨多个服务器的多GPU输入/输出(IO)扩展,每个GPU的双向速度为每秒900千兆字节(GB/s),是PCIe Gen5带宽的7倍以上。系统支持多达256个h100的集群,提供比基于NVIDIA Ampere架构的InfiniBand HDR高9倍的带宽。
英伟达机密计算
NVIDIA机密计算是Hopper内置的安全功能,使NVIDIA H100成为世界上第一个具有机密计算功能的加速器。用户可以在使用H100 gpu无与伦比的加速的同时保护其数据和应用程序的机密性和完整性。
第二代多实例gpu (mig)
Hopper架构的第二代MIG支持虚拟环境中的多租户、多用户配置,将GPU安全地划分为隔离的、适当大小的实例,从而最大限度地提高服务质量(QoS),使租户的安全性提高7倍
DPX指令
Hopper的DPX指令将动态规划算法的速度比cpu快40倍,比NVIDIA安培架构gpu快7倍。这大大加快了疾病诊断、实时路由优化和图形分析的速度
NVIDIA H100 CNX 聚合加速器
NVIDIA H100 CNX将NVIDIA H100的强大功能与NVIDIA ConnectX®-7智能网络接口卡(SmartNIC)的先进网络功能结合在一个独特的平台上。这种融合为GPU驱动的io密集型工作负载提供了无与伦比的性能,例如企业数据中心的分布式人工智能训练和边缘的5G处理。了解有关NVIDIA H100 CNX的更多信息。
企业级
NVIDIA H100 Tensor Core GPU是NVIDIA数据中心平台不可或缺的一部分,由NVIDIA Hopper架构(全球AI基础设施的新引擎)提供支持。该平台专为深度学习、高性能计算和数据分析而构建,可加速超过2700个应用程序,包括所有主要的深度学习框架。此外,NVIDIA AI Enterprise是一款端到端、云原生的AI和数据分析软件套件,已获得认证,可在H100上运行在基于虚拟机管理程序的VMware vSphere虚拟基础设施中。这使得在混合云环境中管理和扩展人工智能工作负载成为可能。从数据中心到边缘,完整的NVIDIA平台无处不在,提供了显著的性能提升和成本节约机会。