从实验室到产业,EmTech China 全球新兴科技峰会将以技术与商业结合的路径为主线,通过演讲嘉宾的梳理与分享,帮你快速理解颠覆性新兴科技的发展路径、影响、潜在规模、及其对相关领域产生影响的潜在时间。
以下为云豹智能联合创始人兼COO 张学利在EmTech China 全球新兴科技峰会暨“50家聪明公司”发布仪式的精彩演讲,由云现场整理提供。
大家好,感谢EmTech和无锡市政府的邀请。我今天分享题目是DPU在数据中心领域的应用。现在DPU从整个业内和数据中心越来越成为大家讨论的话题。我们云豹智能专注于DPU的芯片和解决方案上。这里的话我们讨论一下,整个DPU爆发的背景,现在业内,我们看到过去几年,随着摩尔定律整个发展的变慢,数据处理爆发性增长,实际上对算力的要求其实CPU没有满足满足增长,现在看到异构的GPU解决AI的计算处理。
数据增长的同时,数据处理的方面,DPU解决另外一个,在网络、存储、安全方面处理这个瓶颈。现在业内其实大家看到,比较公认的说法数据中心里面三颗主要的芯片,一个是CPU,一个是GPU还有DPU作为三大核心算力在数据中心里面,成为一个主要的三颗芯片的基础。
我们现在从整个数据中心的发展趋势,整个业内数据中心,像亚马逊这些业界领先的企业在做的事情,我们可以看到,过去所有的事情都是CPU处理所有的业务在数据中心里面,我们叫以CPU为中心。现在我们通过CPU、DPU和GPU做三个主要的芯片作为基石,从CPU为中心,让DPU为中心的演进,这里实际上,从整个网络架构来说,我们换个角度来说,为什么讲是DPU变成整个中心了,这里其实从两个层面,一个层面是从数据的层面,他整个数据中心里面所有的这些网络、存储、安全数据的通路,经过DPU再交给通用的计算交给CPU处理,AI的计算到异构的GPU和XPU来处理,这是从数据的层面。
另一方面,从控制的层面,所处的位置,所有数据中心里面,包括裸金属的需求,整个控制基本上运营和管理放到DPU里面,从这两个方面来讲,DPU变成数据中心里面非常重要的一个或者一个枢纽的位置。
其实在第三个层面,因为网络的基础设施DPU和算力分离了,使得后续的整个演进更容易演进,我们更容易提到这一点。
这里我们稍微回顾一下整个数据中心的历史,讲一下为什么需要DPU的技术。其实过去我们数据中心网络比较少的低速的接口,过去主要的处理,网络、存储、安全、运维管理包括提供运算服务,全部都在里面。
我们有一个网卡,我们网络到PCE到Sevr的接口我们叫neik,其实做了一个主要网络到CPU整个数据的收发。
后来网络带宽增加之后,实际上整个底下网络存储包括安全做的事情越来越复杂,这个时候有很多叫智能网卡,把很多的OVS或者存储的把一些重负载的工作量卸载一部分到网卡里面来,这个时候大大的减轻服务器对CPU的消耗,这个时候实际上对另外一种应用叫裸金属,在数据中心里面提供物理机的能力实际上这种应用没有办法提供的。
我们回到现在,大家可以看到,从数据的角度来说,接口从10到25到100演进的时候,这个时候网络处理的话,运维管理安全这部分占用很大量的CPU的资源。
我们在美国讲数据中心,通过DPU全部卸载到DPU里面来,这个实际上比如说原来部署的时候需要建两个数据中心,采用DPU的话,同样算力可以建一个数据中心满足需求,这个其实是一个DPU一个降本增效的核心的功能和作用。
我们刚刚提到了,这里其实有一个从Facebook、谷歌的数据,讲从整个网络基础设施里面消耗CPU从22%到80%,这个是非常大的CPU的消耗,这个消耗实际上为了支撑数据中心的算力,而浪费的资源。实际上在这种情况的话我们DPU其实要解决把这一部分全部放在我们专用的DPU里面来做,原来我们举个例子,需要消耗50%的算力的话,原来需要建两个数据中心满足的需求。
现在建一个数据中心满足所有的需求,这里包括电,所有网络设施、基础设施,这个成本对数据中心来讲非常巨大的成本,是很大的节省我们这样讲。
其实还有一个我们看到刚刚说80%,我们建一个数据中心80%浪费了,只有20%、30%提供业务服务,为什么现在像GPU专用AI的算力处理,DPU出现的原因,技术演进的过程当中超过一定的数据中心是一定的消耗之后实际上数据中心没有办法超前演进的,我们DPU的技术实际上使得网络的基础设施和算力这部分分离,分离之后我们在网络基础设施这一部分可以有演进,算力可以通过我们的CPU或者通过我们的GPU,XPU提供不同的算力。
我们举了一个例子,当然亚马逊本身卖的比较贵,实际上从另外一个角度,业内最终很难盈利的情况下,亚马逊整个利润率超过35%这个也可以看到整个DPU对他们提供的价值。
这里稍微总结了一下,我们整个DPU,实际上数据中心里面提供了一个弹性的基础设施,也就是说通过我们的DPU技术,提供了网络、存储、安全、运维以及一些应用加速,提供了整个的,同样的物理设施,同样的硬件,同样的服务机提供裸金属,虚拟机、容器的一体化的平台,在数据中心里面并使,所有的业务可以通过同一个数据中心,同一个服务器平台提供差异化的服务。
这里提一下,实际上整个5G包括后续6G的演进整个核心边缘和数据中心越来越采用类似的技术,DPU在这个里面提供同样的优势。
这里稍微前面讲一下技术,我们稍微提DPU的市场,这个市场的话有一些预测了,在并购迈络思大概70亿美金,并购之后他做了分析,2024年全球大概100亿美金,中国占到三分之一这样的市场。
这里可以看到,另外一个实际的例子,亚马逊的话有一个2019年的分析,他的整个的每年的话他们的DPU整个消耗每年几百万的消耗量,国内比较领先的像阿里、神龙服务器每年有几十万的量,整个市场非常大的,这个是另外一个在东数西算上面我们提到说,像电和煤一样提供算力的话,实际上需要弹性的基础设施,在DPU里面起到很大的作用。
稍微介绍一下我们公司,我们云豹是2020年成立,我们CEO是肖博士,原来是MIT的教授,是在之前MI是做多核处理器的,可能大家没有印象,这些公司做的多核的嵌入式CPU在2012年、2013年之前,智能网卡领域,应该在那个时间最合适的一个芯片,后来被收购,后来基于对市场的理解和我们团队,我们后来在2020年我们开始做新一代DPU的技术。
我们云豹提供的价值在哪里呢,因为这个市场和整个网络基础设施的对DPU的需求是一个钢需,特别到100级以上的数据中心,对整个CPU的数据中心的浪费,所以现在可以看到,在业内包括国内像阿里很多家他们采用的没有很好的SOC方案,他们采用的基本上是左边的CPU加IBGA这种方案,也就是说,大家知道IBGA很贵,功耗很高,即使这样的话,本身其实是第一解决了整个数据中心演进的痛点。第二个本身确实给数据中心提供带来降本增效。我们现在的方案实际上把整个的应用和场景放在一颗芯片来做。技术角度来说和主流的亚马逊包括阿里整个需求,包括腾讯是这样的架构和需求定义的。
去年底我们做了25G整个的云销的DPU的网卡的解决方案,我们现在在国内有蛮多的二线的数据中心,包括华为云这边也有,我们华为云有很多的合作,我们在私有云和数据中心里面,能够了解DPU的技术,使得数据中心里面能够使得大家朝更好的技术方向发展,真正的降本增效。
稍微总结一下,DPU其实提供的能力是提供网络的能力,可编程的网络,存储、安全、服务器级别的计算。整个DPU技术来讲的话,英伟达提到说,DPU是数据中心,真正的技术就是把数据中心各个方面的技术都囊括在内,是蛮复杂的芯片,我演讲到这里,谢谢大家。