新闻

News Information

210亿颗晶体管加持金山云全国首家商用Tesla V100

来源：沐金官网浏览次数：1436 时间：2018-06-05 16:00:09.0

　　2018年被称为AI全面迸发的元年，大量AI职业运用逐步落地，带来了生产功率及生活品质的大幅提高，催生出了愈加多元化的商业价值。而伴随着AI开展进入深水区，待处理数据量空前庞大，算法复杂度出现指数级增长，能否供给更快更强的核算力，成为AI保持高速开展的关键因素。

　　面向用户日益增长的关于构建更智慧AI运用的核算需求，供给功用愈加强悍、弹性易扩展和高性价比的云上核算才能，成为业界的一起方针。金山云根据对用户需求的深入把控，于近期正式推出了根据NVIDIA Tesla V100的GPU云效劳器，支撑最高15*8 TFLOPS的单精浮点核算才能和125*8TFLOPS的混合精度(FP16/FP32)矩阵核算才能，使深度学习练习与推理进程功用提高300%，而本钱保持不变。

　　作为国内首家正式公开售卖的根据Tesla V100的GPU云效劳器，运用了创新的Tensor Core引擎，将混合精度浮点的核算才能再提高10倍以上，在整体深度学习的练习与推理运用中比较于上一代PASCAL渠道有了3倍功用提高，可轻松应对深度学习，科学运算、图形图像烘托等许多运用场景，有用缩短在线猜测和离线练习时长。

　　现在根据V100的GPU加速核算效劳已全面商用，为包含小米等在内的许多客户供给着高功用的核算支撑。小米最新发布的年度旗舰手机小米8，其AI加持的全面屏系统MIUI 10、AI相机、AI语音助理“小爱同学”等，背面均有金山云尖端GPU资源供给的核算效劳，极大提高了产品的研制功率和运用体会。

　　在根底结构层面，Tesla V100总共包含了210亿颗晶体管，搭载了84个SM(流多处理器)单元，其间有用单元有80个，每个SM单元中有64个单精度的处理单元CUDA Core以及8个混合精度的矩阵运算单元Tensor Core，总计共有5120个CUDA Core和640个Tensor Core，搭载16GB的HBM 2的显存，带宽可以高达900GB/s，并且支撑300GB/s双向带宽的NVLink2.0的主线协议。

　　全新的Volta架构示意图

　　在线程分配层面，V100是首款支撑独立线程调度的GPU，答应GPU执行任何线程，然后程序中的并行线程之间能完结更精密的同步与协作，运用户能在更复杂多样的运用程序上高效地作业。首创的Tensor Core打破了单处理器的最快处理速度记载，可以供给比功用单一的ASIC更高的功用，在不同作业负载下依然具备可编程性。

　　Tensor Core打造更专业的深度学习核算单元

　　Tensor Core是Volta架构最重磅的特性，是专门针对深度学习运用而规划的专用ASIC单元，是一种矩阵乘累加的核算单元。(矩阵乘累加核算在Deep Learning网络层算法中，比方卷积层、全衔接层等是最重要、最耗时的一部分)。Tensor中心每个时钟周期可执行64次浮点混合乘加(FMA)运算，然后为练习和推理运用程序供给高达125 TFLOPS的核算功用。

　　更强悍的核算才能意味着开发人员可以运用混合精度(FP16核算运用FP32累加)执行深度学习练习，然后完结比上一代产品快3倍的功用，并可收敛至网络预期准确度，现在Tensor Core可以支撑的深度学习结构有Caffe、Caffe2、MXNet、PyTorch、Theano、TensorF low等。

　　此外，Tesla V100的NVLink版别支撑NVLink2.0高速互联总线协议，Tesla P100支撑的NVLink1.0协议，每颗GPU可以衔接4根总线，每根总线的单向传输带宽可以到达20GB/s，四根总线可以完结单向80GB/s、双向160GB/s的IO带宽。而Tesla V100支撑最新的NVLink2.0协议，每颗GPU最多可以完结六根总线互联，每根总线的单向传输带宽可以到达25GB/s，六根总线可以完结单向150GB/s、双向300GB/s的IO带宽，比较NVLink1.0，带宽简直提高了1倍。

　　高混合精度核算才能让核算更高效

　　Tesla V100有NVLink和PCIe两个版别，核算中心都是GV100，均有5120个CUDA Cores以及640个Tensor Cores，NVLink版别主频略高，双精度浮点核算才能到达7.5TFLOPS，单精度浮点核算才能到达了15TFLOPS，而混合精度核算才能可以到达125 TFLOPS，PCIe版别有7TFLOPS双精度浮点核算才能、14TFLOPS单精度浮点核算才能和112个TFLOPS混合精度核算才能。

　　在练习ResNet-50时，单个V100 Tensor Core GPU的处理速度能到达1075张图像/秒，与上一代Pascal GPU比较，它的功用提高了4倍。据测算，假如有100万张图片需求学习，理论上仅需约15分钟即可练习完结。

　　NVLink和PCIe版别Tesla V100比照

　　金山云作为国内首家正式商用Tesla V100的云效劳厂商，现在在售根据V100的效劳器有GPU云效劳器(P4V系列)和GPU物理效劳器(P4E系列)。杰出的深度学习核算功用，让用户可以愈加快速、高效构建AI事务，弹性易扩展和高性价比的特性，可以为用户节省大量核算本钱，有用下降AI开发的时刻危险，提高企业AI竞争力。

新闻

产品

新闻

News Information

210亿颗晶体管加持 金山云全国首家商用Tesla V100

210亿颗晶体管加持金山云全国首家商用Tesla V100