210亿颗晶体管加持 金山云全国首家商用Tesla V100
来源:沐金官网 浏览次数:1138
时间:2018-06-05 16:00:09.0
2018年被称为AI全面迸发的元年,大量AI职业运用逐步落地,带来了生产功率及生活品质的大幅提高,催生出了愈加多元化的商业价值。而伴随着AI开展进入深水区,待处理数据量空前庞大,算法复杂度出现指数级增长,能否供给更快更强的核算力,成为AI保持高速开展的关键因素。
面向用户日益增长的关于构建更智慧AI运用的核算需求,供给功用愈加强悍、弹性易扩展和高性价比的云上核算才能,成为业界的一起方针。金山云根据对用户需求的深入把控,于近期正式推出了根据NVIDIA Tesla V100的GPU云效劳器,支撑最高15*8 TFLOPS的单精浮点核算才能和125*8TFLOPS的混合精度(FP16/FP32)矩阵核算才能,使深度学习练习与推理进程功用提高300%,而本钱保持不变。
作为国内首家正式公开售卖的根据Tesla V100的GPU云效劳器,运用了创新的Tensor Core引擎,将混合精度浮点的核算才能再提高10倍以上,在整体深度学习的练习与推理运用中比较于上一代PASCAL渠道有了3倍功用提高,可轻松应对深度学习,科学运算、图形图像烘托等许多运用场景,有用缩短在线猜测和离线练习时长。
现在根据V100的GPU加速核算效劳已全面商用,为包含小米等在内的许多客户供给着高功用的核算支撑。小米最新发布的年度旗舰手机小米8,其AI加持的全面屏系统MIUI 10、AI相机、AI语音助理“小爱同学”等,背面均有金山云尖端GPU资源供给的核算效劳,极大提高了产品的研制功率和运用体会。
在根底结构层面,Tesla V100总共包含了210亿颗晶体管,搭载了84个SM(流多处理器)单元,其间有用单元有80个,每个SM单元中有64个单精度的处理单元CUDA Core以及8个混合精度的矩阵运算单元Tensor Core,总计共有5120个CUDA Core和640个Tensor Core,搭载16GB的HBM 2的显存,带宽可以高达900GB/s,并且支撑300GB/s双向带宽的NVLink2.0的主线协议。
全新的Volta架构示意图
在线程分配层面,V100是首款支撑独立线程调度的GPU,答应GPU执行任何线程,然后程序中的并行线程之间能完结更精密的同步与协作,运用户能在更复杂多样的运用程序上高效地作业。首创的Tensor Core打破了单处理器的最快处理速度记载,可以供给比功用单一的ASIC更高的功用,在不同作业负载下依然具备可编程性。
Tensor Core打造更专业的深度学习核算单元
Tensor Core是Volta架构最重磅的特性,是专门针对深度学习运用而规划的专用ASIC单元,是一种矩阵乘累加的核算单元。(矩阵乘累加核算在Deep Learning网络层算法中,比方卷积层、全衔接层等是最重要、最耗时的一部分)。Tensor中心每个时钟周期可执行64次浮点混合乘加(FMA)运算,然后为练习和推理运用程序供给高达125 TFLOPS的核算功用。
更强悍的核算才能意味着开发人员可以运用混合精度(FP16核算运用FP32累加)执行深度学习练习,然后完结比上一代产品快3倍的功用,并可收敛至网络预期准确度,现在Tensor Core可以支撑的深度学习结构有Caffe、Caffe2、MXNet、PyTorch、Theano、TensorF low等。
此外,Tesla V100的NVLink版别支撑NVLink2.0高速互联总线协议,Tesla P100支撑的NVLink1.0协议,每颗GPU可以衔接4根总线,每根总线的单向传输带宽可以到达20GB/s,四根总线可以完结单向80GB/s、双向160GB/s的IO带宽。而Tesla V100支撑最新的NVLink2.0协议,每颗GPU最多可以完结六根总线互联,每根总线的单向传输带宽可以到达25GB/s,六根总线可以完结单向150GB/s、双向300GB/s的IO带宽,比较NVLink1.0,带宽简直提高了1倍。
高混合精度核算才能让核算更高效
Tesla V100有NVLink和PCIe两个版别,核算中心都是GV100,均有5120个CUDA Cores以及640个Tensor Cores,NVLink版别主频略高,双精度浮点核算才能到达7.5TFLOPS,单精度浮点核算才能到达了15TFLOPS,而混合精度核算才能可以到达125 TFLOPS,PCIe版别有7TFLOPS双精度浮点核算才能、14TFLOPS单精度浮点核算才能和112个TFLOPS混合精度核算才能。
在练习ResNet-50时,单个V100 Tensor Core GPU的处理速度能到达1075张图像/秒,与上一代Pascal GPU比较,它的功用提高了4倍。据测算,假如有100万张图片需求学习,理论上仅需约15分钟即可练习完结。
NVLink和PCIe版别Tesla V100比照
金山云作为国内首家正式商用Tesla V100的云效劳厂商,现在在售根据V100的效劳器有GPU云效劳器(P4V系列)和GPU物理效劳器(P4E系列)。杰出的深度学习核算功用,让用户可以愈加快速、高效构建AI事务,弹性易扩展和高性价比的特性,可以为用户节省大量核算本钱,有用下降AI开发的时刻危险,提高企业AI竞争力。