为什么说将边缘AI芯片嵌入物联网设备是必然之选

重磅!科创板AI芯片第一股来了:估值超300亿、天才少年创办、众多明星股东“撑腰”……

68天,从科创板IPO申请获得上交所受理,到成功过会,这是AI芯片公司寒武纪的过会速度。 放眼整个科创板,这个过会速度排在前列。 寒武纪凭什么可以火速过会?根据招股书,寒武纪主营是应用于各类云服务器、边缘计算设备、终端设备中人工智能核心芯片的研发、

边缘AI芯片是指在边缘设备上(而不是在远程数据中心)执行或加速机器学习任务的部分或完整芯片。据德勤(Deloitte)预测,到2020年,边缘AI芯片出货量将超过7.5亿颗,销售金额将达到26亿美元,而且边缘AI芯片的增长将远快于整体芯片市场。到2024年,预计边缘AI芯片的出货量可能超过15亿颗。这表示其复合年增长率至少为20%,是整个半导体行业增长预测(9% CAGR)的两倍多。

图1:AI可以嵌入的位置(图片来源:Deloitte Insights)

这些边缘AI芯片可能会嵌入到越来越多的消费类设备中,例如高端智能手机、平板电脑、智能音箱和可穿戴设备等。它们还将在多种企业市场中得到应用,例如机器人、摄像头、传感器和其它物联网设备。消费类边缘AI芯片市场将远大于企业市场,但增长速度可能会较慢,预计2020年至2024年之间,其复合年增长率为18%。而企业级边缘AI芯片市场的增长速度更快,预计同期的复合年增长率为50%。

图2: 边缘AI芯片市场 (图片来源: Deloitte Insights)

尽管如此,无论从出货量还是销售金额来看,今年消费类设备市场都将占边缘AI芯片市场的90%以上。这些边缘AI芯片中的绝大部分将用于高端智能手机,这一市场占目前使用的所有消费类边缘AI芯片的70%以上。实际上,不仅是2020年,在未来几年,AI芯片的增长将主要由智能手机推动。我们相信在今年预期出售的15.6亿部智能手机中,超过三分之一都可能包含边缘AI芯片。

由于对处理器的要求非常高,AI计算历来几乎全部在数据中心、企业核心设备或电信边缘处理器上远程执行,而不是在终端设备本地上执行。现在,边缘AI芯片正在改变这一切。它们物理尺寸更小,相对便宜,功耗更小,产生的热量也更少,因而可以集成到手持设备以及非消费类设备(如机器人)中。边缘AI芯片可让终端设备能够在本地执行密集型AI计算,减少甚至消除了将大量数据发送到远端位置的需求,因此在可用性、速度、数据安全性和隐私性方面益处良多。

从隐私和安全性方面来看,在边缘设备上处理数据显然更安全;个人信息不离开手机就不会被拦截或滥用。而当边缘AI芯片安装在手机上时,即使未连接到网络,它也可以完成所有处理。

当然,并非所有AI计算都必须在本地进行。对于某些应用,例如,当设备上的边缘AI芯片无法处理太多数据时,发送数据给远端AI阵列来处理是适当的,甚至是首选方案。实际上,多数情况下,AI将以混合模式完成:一部分在设备端实现,一部分在云端实现。具体情况下应该选择什么样的混合方式,要看需要完成的AI处理类型。

智能手机边缘AI经济学

并非只有智能手机使用边缘AI芯片;其它设备诸如平板电脑、可穿戴设备、智能音箱等也会采用AI芯片。短期内,其它设备对边缘AI芯片销售的影响可能会比智能手机小得多,原因是要么这类市场没有什么增长(如平板电脑),要么这类市场规模太小而无法产生实质性的影响。例如,智能音箱和可穿戴设备市场总销量预计2020年仅为1.25亿部。不过,许多可穿戴设备和智能音箱都依赖边缘AI芯片,因此其普及率已经很高。

目前,只有价格最昂贵的智能手机(处于价格区间顶部)才可能内置边缘AI芯片。但是,带有AI芯片的智能手机并不一定要价格昂贵到让消费者望而却步。

我们可以对智能手机的边缘AI芯片占比进行合理的估算。现今,三星、苹果和华为的手机处理器图片均显示出裸片及所有功能特性,因此可以识别出芯片的哪些部分用于哪些功能。例如,三星Exynos 9820芯片的照片显示,其芯片总面积的大约5%专用于AI处理器。整个SoC应用处理器的成本估计为70.50美元,仅次于显示屏,是手机中第二昂贵的器件,约占设备总物料成本的17%。假设AI部分的成本与裸片上的其它部分一样,即跟所占裸片面积成正比。那么,Exynos的边缘AI神经处理单元(NPU)大约占裸片总成本的5%,相当于每个NPU约$ 3.50美元。

图3:三星Exynos 9820芯片的裸片曝光显示,大约5%的面积专用于AI处理器。(图片来源:ChipRebel;注释:AnandTech)

同样,在苹果的A12 仿生芯片上,专用于机器学习的部分约占裸片总面积的7%。如果整个处理器的成本为72美元,那么边缘AI部分的成本约为5.10美元。华为麒麟970芯片的成本估计为52.50美元,其中2.1%用于NPU,则这部分成本应为1.10美元。(当然,裸片面积并不是衡量芯片总成本中有多少用于AI的唯一方法。据华为称,麒麟970的NPU包含1.5亿个晶体管,占整个芯片55亿个晶体管总数的2.7%。若按这样计算,NPU的成本将有所提高,即1.42美元)。

图4:苹果的A12仿生芯片专用于机器学习的部分约占总裸片面积的7%。(图片来源:TechInsights / AnandTech)

决定芯片质量的光刻机,在美国封锁关头能否取得进展?

自特朗普上任以来,美国与我国的技术交流大大减少,且作为商人的特朗普一直针对我国科技公司的发展,而作为听从美国的好盟友,欧美国家对我国的科技封锁也在不断加强。虽然我国的科技水平已经在不断提高并在很多领域都打破了西方国家的垄断,但在最为关键、最

尽管这里所提到的成本差别很大,但可以合理假设NPU的平均成本约为每芯片3.50美元。虽然每颗芯片的价格不高,但考虑到五亿的智能手机出货量(还不包括平板电脑、智能音箱和可穿戴设备),这仍然是一个很大的市场。制造商的平均成本为3.50美元,最低可能仅1美元,因此,在智能手机芯片中添加专用的边缘AI NPU是很自然的事。按照正常的利润加价幅度,制造成本增加1美元,对最终消费者而言也仅增加2美元。这意味着即使是价格低于250美元的智能手机,也可以拥有NPU及其带来的益处,如更好的摄像头、离线语音助手等,而价格涨幅也不过1%。

AI芯片的采购:自研还是第三方?

生产智能手机和其它设备的厂商获取边缘AI芯片的方式各不相同,这主要取决于手机型号,甚至地理位置等因素。有些公司从高通和联发科等第三方供应商那里购买应用处理器/调制解调器芯片。这两家公司在2018年合计占据了智能手机SoC市场约60%的份额。

高通和联发科提供了一系列不同价位的SoC。尽管并非所有都包含边缘AI芯片,但高端型号通常都有,比如高通的晓龙845和855,以及联发科的Helio P60。而在另一极端,苹果则完全不使用第三方AP芯片,苹果设计并使用自己的SoC处理器,如A11、A12和A13 仿生芯片,所有这些芯片均内嵌边缘AI功能。

其它手机制造商,例如三星和华为,则采用混合策略,即从市场上的芯片供应商那里购买一些SoC,其余部分则使用他们自己研发的芯片,例如三星的Exynos 9820和华为的麒麟970/980。

超过50家AI加速芯片公司在争夺企业与工业领域的边缘AI市场

如果在智能手机和其它设备中采用边缘AI处理器益处很多,那为什么不将它们用于企业应用呢?实际上,边缘AI处理器已经有一些企业用例了,例如某些自主无人机。配备了智能手机SoC应用处理器的无人机能够完全在设备端进行实时导航和避障,而无需网络连接。

但是,针对智能手机或平板电脑优化的芯片并不是许多企业或工业应用的正确选择。如前所述,智能手机SoC的边缘AI部分仅占总面积的5%,约占总成本的3.50美元,并且比整个SoC的能耗低约95%。这样,如果开发出只有边缘AI功能(加上其它一些必要功能,例如内存)的芯片,它的成本会更低、功耗更少且体积更小,这岂不更好?

事实上,已经有这样的芯片了。据说,有多达50家不同的公司正在开发各种各样的AI加速芯片。2019年就已经有独立的边缘AI芯片面向开发人员供应,可以单独购买,价格约为80美元。如果生产量达到百万级别的话,设备制造商的购买成本会大大降低,有些甚至低至1美元(甚至可能更低),而有些要几十美元。现在,我们以智能手机边缘AI芯片作为参考标准,假设边缘AI芯片的平均成本约为3.50美元。

除了相对便宜之外,独立的边缘AI处理器还具有体积小的优势,而且功耗也相对较低,仅为1到10W之间。相比之下,一个由16个GPU和两个CPU组成的数据中心集群功能非常强大,但成本也十分昂贵,高达40万美元,重350磅,耗电要10千瓦。

鉴于目前的情形,边缘 AI可以为企业带来更多新的可能性,尤其是在物联网应用方面。通过使用边缘AI芯片,企业可以极大地提高在设备端的数据分析能力(而不仅仅从联网设备端收集数据),并能够将分析结果转化为行动,从而避免了将海量数据发送到云端造成的成本、复杂性和安全性方面的挑战。AI芯片可以帮助解决的问题包括:

数据安全和隐私

不管企业如何谨慎地保护数据,收集、存储并将数据传送到云端都会不可避免地使企业面临网络安全和隐私威胁。随着时间的推移,应对这一风险变得至关重要。有关识别个人身份信息的法规在各个国家和地区不断出台,消费者也逐渐意识到企业正在收集他们的各种数据,而80%的消费者都表示,他们认为企业没有尽力保护消费者隐私。诸如智能音箱之类的设备开始在医院等场合广泛使用,这些场合对患者隐私的管理十分严格。

边缘AI芯片可在本地处理大量的数据,降低了个人或企业数据被拦截或滥用的可能性。例如,具有机器学习处理能力的安全摄像头可以通过分析视频来确定视频的哪些部分相关,并只将这部分视频发送到云端,从而降低隐私泄漏的风险。机器学习芯片还可以识别更广泛的语音命令,从而减少需要在云端分析的音频。而准确的语音识别功能还可以帮助智能音箱更准确地识别出“唤醒词”,从而防止“听到”不相关的对话。

弱连接性

设备必须联网,其数据才能在云端处理。但是,在某些情况下,设备联网是不切实际的,无人机就是个很好的例子。无人机的操作位置决定了维持其联网可能很困难,而且联网本身以及将数据上传到云端都会缩短电池寿命。在澳大利亚新南威尔士州,装配有嵌入式机器学习功能的无人机可以巡逻海滩,以确保游泳者的安全。无需互联网连接,这些无人机就可以识别出被海浪卷走的游泳者,或者在鲨鱼和鳄鱼袭击来临前警告游泳者。

太大的数据

物联网设备会生成大量的数据。例如,一架空客A-350喷气式飞机拥有6,000多个传感器,每天的飞行将产生2.5 TB的数据。在全球范围内,安全摄像头每天生成的数据约有2500 PB。将所有这些数据发送到云端进行存储和分析的成本高昂且复杂。而将机器学习处理器放置在端点设备上(传感器或摄像头)则可以解决这个难题。例如,可以在摄像头中配备视觉处理单元(VPU),VPU是一种专用于分析或预处理数字图像的低功耗SoC处理器。借助嵌入式边缘AI芯片,设备可以实时分析数据,只有当相关数据需要发送到云端进一步分析时才会向云端传输,从而大大降低了存储和带宽成本。

功耗制约

低功耗的机器学习芯片甚至可以在小型电池供电的设备上执行AI计算,而不会消耗过多功率。例如,Arm芯片可以嵌入到呼吸机中来分析数据,比如吸入肺活量和进入肺部的药物流。在呼吸机上进行AI分析,然后将结果发送到智能手机上的APP,这样就可以帮助医疗保健专家为哮喘患者提供个性化护理。除了现在已有的低功率边缘AI NPU外,很多公司还致力于开发“微型机器学习”:在微控制器单元之类的器件上实现深度学习。例如,谷歌正在开发一个TensorFlow Lite版本,可以让微控制器分析数据,并将需要发送到芯片外的数据压缩为只有几个字节大小。

低延迟需求

无论是通过有线网络还是无线网络,在远程数据中心执行AI计算都意味着存在往返延迟,最佳情况下延迟为1到2 毫秒,最差情况下为几十甚至几百毫秒。而使用边缘AI芯片在设备端执行AI可以将这个延迟减少到纳秒级别,这对于那些需要收集和处理数据并即刻采取行动的应用场景至关重要。例如,自动驾驶汽车必须通过计算机视觉系统收集并处理大量数据以识别物体,同时收集和处理来自传感器的数据以控制汽车各种功能。然后,他们必须立即根据这些数据做出决策,例如何时转弯、制动或加速,以实现安全的操作。为此,自动驾驶汽车必须自己处理在车辆中收集的海量数据。低延迟对机器人应用也很重要。随着机器人逐渐走出工厂环境,而开始与人类协同工作,低延迟将变得越来越重要。

结论:边缘AI对海量数据应用至关重要

边缘AI芯片的普及将可能给消费者和企业带来重大变化。对消费者而言,边缘AI芯片可以实现多种功能,从解锁手机到与语音助手对话,甚至在极端困难的条件下拍摄出令人惊叹的照片。这些,都无需互联网连接。

但从长远来看,边缘AI芯片对企业应用的影响可能更大,它们将把企业的物联网应用提升到一个全新的水平。由AI芯片推动的智能设备将有助于扩展现有市场,冲击现有企业,同时改变制造、建筑、物流、农业和能源等行业的价值分配方式。收集、理解并立即根据大量数据采取行动的能力对于依赖大数据的应用将变得至关重要,而未来学家们预测,未来这类应用将遍地开花,包括视频监控、虚拟现实、无人机和车辆等。

未来,很大程度上将取决于边缘AI芯片如何让设备更加智能。

本文源自头条号:EET电子工程专辑如有侵权请联系删除

担心竞争力落后,美国芯片行业向国家申请370亿美元补贴

据美国《华尔街日报》一篇题为《半导体行业将展开游说以争取巨额资金,用于促进美国半导体生产》的文章称,美国芯片行业正在为大规模游说活动做准备,以期获得数百亿美元联邦资金用于扩大本土研发和制造业务,进而帮助维持美国在芯片行业的领先地位。 报道称