近年来,伴随着人工智能、云计算、大数据等新一代数字信息技术的飞速发展,物联网被广泛应用到各类生产生活领域,作为客观实在的物体与环境被赋予了智慧,广泛体现在诸多社会经济领域,并衍生出多种“智慧”新兴行业模式。论坛将围绕物联网赋能农业、工业、服务业、城市建设等高质量发展的话题,深度研讨物联网成为推动我国经济从传统要素数量型增长模式转向技术创新驱动型高质量发展模式的全新路径。
以下是海飞科(上海)信息科技有限公司董事长仇小刚在智能物联赋能高质量发展论坛上的精彩致辞,由云现场整理。
尊敬的各位领导、朋友们,大家下午好!
我要分享的题目是《面向AI的通用并行计算》。
我们海飞科是做GPU的,大家搞人工智能的应该比较熟悉的。在我们这个行业,有并且只有一个标杆企业,大家都知道是谁,我们希望能够做得更好。
我们是一家初创企业,拥有最顶级的研发团队,我们是完全自主研发的创新企业,致力于通用并行处理器芯片的研发。可以用于人工智能、云计算。我们现在已经有产品了,已经进入量产阶段,我们最关注的是通用并行处理器,所以我们并不把自己叫做AI芯片,最主要的是面向AI,去做优化的。
大概做了一些简介,人工智能的应用,不管是训练也好还是推理也好,主要是这三个流派,GPU、ISF和DST,他们最主要的问题还是通用的,我们希望我们提供的是通用的并行处理器,让软件有长时间迭代的能力,我们提供一种系列的产品。
从应用的角度讲,最早的是3D图形,打游戏的,应用游戏多一点,还有科学计算等等。我们的应用领域AI大家熟悉的,出行、科学计算,自动驾驶单独提出来,我们认为也是AI人工智能的范畴。这边是我们GPU的情况。
这是我们第一代产品Compass C10,我们计划推出边缘一体机,里面自己带CPU的,可以不用插在主机中。我重点提一下是我们内存的容量可以有不同的配置,产品实测的结果,这边看到的都是现在比较清楚的知道人工智能的应用,比如说SGEM是科学计算运用得最为广泛的,SGEM是32位浮点运算的结果。我们跟英伟达峰值计算能力上是相当的,而且制成能力也是相当的。如果是比SGEM的话,我们大概是它的4倍多,差不多4倍的样子。我们其他的东西都是跟它的峰值是一样的,32位的峰点是它的2倍,在这个吞吐量之下,多花了一点能量,总体算下来还是要比英伟达的表现要好。
Brenet是一个比较大的语言类模型。BERT-Base,OPT-13B不管哪类,都要比它的浮点要高,我们有类似的东西,从软件的角度讲还是有我们自己的东西。
那边是OBT,今天大家提到了GPT,OPT是开源版的,像脸书Facebook开源版的。不同的模型规模可以进行设置,13B应该是130亿的参数,我们可以跑没问题,英伟达的T4跑不了,只有11个显存,我们最小的配置是13个,所以跑没问题。这边是一些AI模型的计算,不讲了。
右上角科学计算应该是某一个矩阵方程,某一个应用去算低洼地的洪涝的计算,我们帮他做的这个东西,所以这个延时,我们的延迟是好于英伟达的。右下角是一个排序的应用,我们跟T4差不多,我们比T4略好一点点,这边写的一百,实际上在数据量比较大的时候,应该是CPU的200倍左右。这个是实测的结果,是信通院测的,不是我们测的。
大家看到这些东西是标杆企业对应训练的卡或者推理的卡,现有的产品和现在买不到的,但是最先进的产品,现在最贵的是用一种最贵的技术HKI,稍微便宜一点的是图形用的存储的技术,这个东西最新的卡差不多48GB,我们最高可以配到128GB,我们还不知道其他对应的产品有类似的东西。这是现有的硬件,这个图上不管怎么样,这些是画的模型的参数,GPT、OP这些模型的参数差不多是这么多,单位B相当于每一个参数这样存储的,对应的差不多是这样一个趋势。对于大模型来讲,是用非常多的卡训练的,模型并行这样的方法,分摊在几千张、上万张卡上去做的。模型的大小模型的size还是那么多,用32G去存的,最好的情形下是用8位,FP8去存的,不管怎么样如果是这个两级是非常大,一张卡绝对放不下的。
我们做了额测试,用T4没办法推理,因为显存太小了,只有16,Tolen现存是这样一个级别,所以我们差不多能达到实际的效果,这是推大模型,我们还搞了一个AIGC生成图的东西,我们跑了一下,这个对模型的大小,大概模型能装得下,差不多几个GB的样子,用T4做一下,当它大的时候T4装不下。我们还是在持续地改进当中。
大概算了一下,从性价比尤其是推理的性价比角度应该是4.5万。B不一定买得到,如果是128GB的话差不多是它的1/3左右,是V100的1/3左右,如果64GB应该是1/4左右。这个很容易算,从性价比上看,尤其是在不数大模型的时候,这个性价比是非常高的。
这是我们的软件平台,基本上提供TOCA高级语言的支持,我们有一整套的工具库提供,从技术特点来讲,我们是全自研创新的公司,通用可编程性,我们的指令集加编程运行计算。优化FPA芯片的指标,算力高利用率高。
紧靠主流的通用性,我们都清楚,现在所谓的主流,在通用计算上的主流实际上是支持TOCA,AI是我们最主要的支持的,大家可以去算其他的科学计算。这是雏形的story。
我们是做通用并行处理器的,我就讲到这里。