TUhjnbcbe - 2023/10/20 16:49:00
文/李方xPU又是什么*?你听说过CxO么?就是企业里各种高管职位CEOCOOCTOCMOCFO......好吧CPUGPUTPUNPUIPU……就是各种芯片的称谓笔者在年初“产业研究系列”头篇《中国芯之痛何时解?(上下)》就谈到芯片可以把这篇看作是那篇的姊妹篇吧那篇主要说到中国企业在5G芯片方面有了崛起的机会那这篇就要讨论中国企业在AI芯片领域有没有机会?要想谈清楚AI芯片就不得不从通用芯片说起据说每过18天芯片领域就会多出一个xPU直到26个字母被用完当26个字母用完后还会出现xxPU、xxxPU……先不管那么多目前xPU领域主要是各种AI芯片的竞争我们先选取竞争最激烈的几个AI芯片来谈我们找出瓜众们在此领域最关心的几个问题来谈:集成电路芯片演变历史概述目前几种主要AI芯片介绍GPUTPUNPUIPU寒武纪芯片是中国AI芯片的希望所在吗?中国在AI芯片领域整体发展态势集成电路芯片演变历史概述要把这段历史说清楚还得从世界上第一台电子计算机说起年世界上第一台电子计算机ENIAC在美国诞生这个庞然大物重达30余吨占地平方米由只电子管组成核心计算单元当然它的功能比现在一个最普通的手机差得很远但不要忘了这是世界上第一次用机器代替人来计算年世界上第一台商用计算机投入实用这台通用自动计算机交付给了美国人口调查局使用年“晶体管之父”肖克利离开了贝尔实验室回到硅谷圣克拉拉建立了自己的公司这是世界上第一个真正研发半导体的公司肖克利实验室为硅谷引来了大批技术人员使硅谷取代了美国东部成为了美国半导体(芯片)产业中心年克雷(Crey,-)设计了全晶体管超级计算机之后的20年主流计算机都是以晶体管集成电路为核心组成的所以克雷被誉为超级计算机之父年10月1日RobertNoyce率领着“8叛逆”离开了肖克利实验室创建了著名的“仙童半导体”公司这是硅谷历史上一个里程碑事件年仙童半导体首次以晶体管集成电路技术在商业上大力推广之后若干年一大批著名芯片厂商像Intel、AMD、美国国家半导体等都是由仙童半导体出来的人创立的年世界上第一块基于硅片的集成电路制造成功这是划时代的历史事件计算机芯片进入了硅芯片时代年美国贝尔实验室使用完善的硅外延平面工艺制造出第一块公认的大规模集成电路年RobertNoyce放弃了他创立的仙童半导体与GordonMoore(提出摩尔定律的)一起创立了Intel年Intel推出第一片DRAM存储器年Intel推出SRAM和EPROM但此时日本的硅芯片产业突然崛起同样也能大规模生产DRAM等存储器并且成本比Intel的有居大优势日本芯片产业的崛起给Intel造成了巨大压力Intel频临破产此时就发生了那段最经典的Intel转型的历史故事一天两位Intel领导人董事长摩尔、总裁格鲁夫在一起讨论经营困境面对已经被对手逼到死角的绝境二人也是面面相觑......格鲁夫突然问摩尔:“摩尔,如果我们下了台,你认为新进来这个家伙会采取什么行动?”摩尔犹豫了一下,说:“他会完全放弃存储器的生意。”格鲁夫目不转睛地盯着摩尔:“既然这样,你我为什么不走出这扇门,然后再进来自己动手这样干呢?”随后他们作出了重大决策:放弃存储器业务开始研发微处理器!很快他们就研发出来第一款基于硅集成电路的微处理器当然面对只有二进制4位的微处理器Intel也不知道有用没用能否改变他们要关门的命运反正已经走出了这一步不走肯定是死走出来没准有一线生机年Intel又推出了微处理器这款微处理器从4位扩展到了8位性能有了明显改善可是业界几乎没人认为这种芯片可以用于计算机的中央处理器最多可以用于工业控制设备(如数控机床)的处理器而拼死一战的Intel并没有止步坚持做出了这两块芯片正式开启了以微处理器为计算机中央处理器的时代当然并不是所有人都能看清微处理器的划时代意义只有个别具有良好计算机基础的同时具有产业洞察力的人才能看懂这点盖茨与乔布斯就是当时全世界不超过10个人中的两个这两个从中学时代就可以用机器语言编程的电脑天才看到了微处理器的应用前景他们认为这个小芯片必将改变世界的未来!然后就开始动手了。盖茨与他创业伙伴保罗基于开发出来第一款微操作系统DOS年IBM用和DOS制造出了世界第一台微计算机IBMPC而同年乔布斯与他创业伙伴沃滋基于摩托罗拉芯片(与类似)开发出了第一台实用的苹果电脑AppleIIIntel继之后相继开发出奔腾……微处理器从8位16位奔腾4前32位奔腾5后64位完全满足了大型计算机的需要从此x86处理器体系成为了计算机CPU的标配从以上芯片产业历史发展的介绍我们看到经过50多年的发展芯片产业发生了翻天地覆的变化计算机产业也发生了同样巨大的变化从最原始的电子管到晶体管再到集成电路体积越来越小功能越来越强大并且为后面全球芯片业的发展打下了良好的基础目前几种主要AI芯片介绍GPUTPUNPUIPU前面讲述了计算机处理器芯片的发展历史我们了解到:计算机中央处理单元从电子管到晶体管最后到硅晶圆集成电路最终主流计算机CPU(中央处理器)均定位在x86芯片上此类芯片以Intel、AMD公司为主占领了计算机CPU90%以上的市场而其他厂商如摩托罗拉、IBM、DEC等也曾经做过非x86芯片但都没有形成主流最后都慢慢退出了市场但无论是x86或非x86体系芯片在计算机体系结构上都属于冯·诺依曼体系结构冯·诺依曼体系结构是年由美籍匈牙利科学家冯·诺伊曼提出的简单地说就是将运算程序与数据均放在存储器中然后依一系列控制指令使程序按照一定顺序执行最后输出运算结果再说的通俗一点就是:无论多复杂的运算公式最终都能拆解成数值的加减法然后以二进制的加减法进行运算这样就能将复杂的运算用机器自动完成大大提高了效率和质量最初计算机率先使用在核武器研制及航空航天领域就是解决那些领域繁琐庞杂的计算工作的可是随着计算机技术的发展越来越多的领域需要由计算机来参与解决问题而冯·诺依曼体系结构的计算机最擅长的就是科学计算无论多么复杂的问题只要你能把它分解成某种“算法”计算机就能通过运算得到满意的结果随着计算机应用领域不断扩展人们发现冯·诺依曼体系越来越难以适应更复杂的应用领域了或者说有些可以解决复杂领域的需求但是效率变得很低很不合理特别在人工智能领域尤为突出人工智能的核心诉求是试图模仿人脑来解决各种复杂的问题可是人们发现冯·诺依曼体系对于人脑来说就是个小儿科太多的问题不是以冯·诺依曼体系的逻辑来处理的举个例子笔者在英国的博士论文课题是“地图的自动概括”这是个典型的人工智能课题!传统的“地图概括”是由有经验的工程师来完成的在地图从大比例尺到小比例尺到转换过程中很多问题要人来判断:原来一堆单个房屋要以什么规则合并成建筑块?其他各种地物以什么规则决定删除?合并?夸张?等处理?人在处理这些问题时凭看到的实际情况与工作经验马上就改过来了可是面对这些问题冯·诺依曼体系计算机基本是“傻”掉了!尽管笔者使用了当时最先进的Prolog语言C语言Oracle数据库等也是勉强解决了部分问题不能全部解决问题归根到底冯·诺依曼计算机体系就不是为解决这类问题而生的随着人工智能时代越来越近越来越现实冯·诺依曼体系结构显然是力不从心了落实到计算机大脑——芯片就必须要设计出全新的系统结构从此各种类型的、更适合AI领域的芯片应运而生在此我们主要介绍几种AI芯片GPUTPUNPUIPUGPU全称为GraphicsProcessingUnit中文为图形处理器就如它的名字一样GPU最初是用在个人电脑工作站游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器为什么GPU特别擅长处理图像数据呢?这是因为图像上的每一个像素点都有被处理的需要而且每个像素点处理的过程和方式都十分相似也就成了GPU的天然温床GPU简单架构如下图所示:从架构图我们就能很明显的看出GPU的构成相对简单有数量众多的计算单元和超长的流水线特别适合处理大量的类型统一的数据但GPU无法单独工作必须由CPU进行控制调用才能工作CPU可单独作用处理复杂的逻辑运算和不同的数据类型但当需要大量的处理类型统一的数据时则可调用GPU进行并行计算虽然GPU是为了图像处理而生的但是通过前面的介绍可以发现它在结构上并没有专门为图像服务的部件只是对CPU的结构进行了优化与调整所以现在GPU不仅可以在图像处理领域大显身手它还被用来科学计算密码破解数值分析海量数据处理(笔者的地图概括处理)金融分析等需要大规模并行计算的领域所以GPU也可以认为是一种较通用的芯片TPU全称为TensorProcessingUnit,张量处理器就是谷歌专门为加速深层神经网络运算能力而研发的一款芯片其实也是一款ASIC图:谷歌第二代TPUTPU与同期的CPU和GPU相比可以提供15-30倍的性能提升以及30-80倍的效率(性能/瓦特)提升初代的TPU只能做推理要依靠Google云来实时收集数据并产生结果而训练过程还需要额外的资源而第二代TPU既可以用于训练神经网络又可以用于推理图:TPU芯片布局图TPU在芯片上使用了高达24MB的局部内存6MB的累加器内存以及用于与主控处理器进行对接的内存总共占芯片面积的37%(图中蓝色部分)到目前为止TPU其实已经干了很多事情了例如机器学习人工智能系统RankBrain它是用来帮助Google处理搜索结果并为用户提供更加相关搜索结果的还有街景StreetView用来提高地图与导航的准确性的当然还有下围棋的计算机程序AlphaGoNPUNeuralnetworkProcessingUnit即神经网络处理器顾名思义这家伙是想用电路模拟人类的神经元和突触结构啊怎么模仿?那就得先来看看人类的神经结构生物的神经网络由若干人工神经元结点互联而成神经元之间通过突触两两连接突触记录了神经元之间的联系如果想用电路模仿人类的神经元就得把每个神经元抽象为一个激励函数该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定为了表达特定的知识使用者通常需要(通过某些特定的算法)调整人工神经网络中突触的取值网络的拓扑结构等该过程称为“学习”神经网络中存储和处理是一体化的都是通过突触权重来体现而冯·诺伊曼结构中存储和处理是分离的分别由存储器和运算器来实现二者之间存在巨大的差异当用现有的基于冯·诺伊曼结构的经典计算机(如X86处理器和英伟达GPU)来跑神经网络应用时就不可避免地受到存储和处理分离式结构的制约因而影响效率这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一NPU的典型代表有国内的寒武纪芯片和IBM的TrueNorthIPUIntelligenceProcessingUnit是一种为AI计算而生的革命性架构IPU处理器是迄今为止最复杂的处理器芯片它在一个16纳米芯片上有几乎亿个晶体管每个芯片提供teraFLOPS运算能力一个标准4U机箱中可以插入8张卡卡间通过IPU链路互连8张卡上的IPU可以作为一个处理器元件工作提供两个petaFLOPS的运算能力与芯片在CPU和GPU中的存在形式不同它为机器智能提供了更高效的处理平台这个产品将用于云计算服务器也极有可能用于自动驾驶汽车目前在IPU方面领先的是英国Graphcore公司Graphcore公司于年创立如今该公司在伦敦剑桥台湾北京PaloAltoOslo都设有办公室员工人数将在年底达到人首款IPU也已经于19年底推出了Graphcore专家认为:“我们接触过的所有创新者都说使用GPU正在阻碍他们创新如果仔细看一下他们正在研究的模型类型你会发现他们主要研究卷积神经网络递归神经网络和其他类型的结构例如强化学习并不能很好地映射到GPU这也正是我们将IPU推向市场的主要原因”Graphcore的IPU里面有个核我们称之为Tile每个Tile里都有计算单元和内存由于同时有上千个处理器工作所以单个IPU的存储带宽能达到45TB比性能最快的HBM提升了50倍以上在相同算力下功耗也降低了一半Graphcore专家总结IPU与其它的AI芯片相比有三个比较核心的区别第一处理器核的架构不同IPU是MIMD架构第二IPU的模型在处理器内第三大规模并行IPU核之间的通信效率也非常高总结几种AI芯片GPU是最早开发出来的图形处理芯片要与CPU配合使用在一定程度上解决了并行处理问题TPU与NPU开始从原理上模拟人脑神经网络系统真正进入人工智能应用领域IPU是最新的专门为人工智能服务的AI芯片由于它内部强大的并行处理能力相信在未来人工智能领域将大放异彩另外我们也相信随着人工智能领域的快速发展越来越强大的新型AI芯片还会继续涌现(未完待续)