集成电路(IC)与系统级芯片(SoC)正整合多种处理单元,既能优化当前工作负载,也能为未来技术发展预留适配空间。
过去,人们只需在专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP)之间做简单选择,如今则演变为多种处理器类型与架构的组合方案,涵盖不同层级的可编程性与定制化能力。运算速度固然至关重要,但技术迭代速度如此迅猛,以至于当下的最优解决方案,可能在芯片完成流片量产时就已落伍。一旦出现新的人工智能模型、内存标准或其他技术升级,相较于成本高昂的芯片重新流片,可编程组件无疑是更简便的应对方案——这甚至可以包括直接替换一颗可编程芯粒。
芯片支持现场重编程或重构的能力,让设计人员得以重新分配工作负载,并为消费者提供硬件级升级,无需用户购置昂贵的新设备。现场可编程门阵列(FPGA)与数字信号处理器(DSP)是目前最常见的两类可编程组件,但市场上也存在其他同类产品。
“最直观的例子就是图形处理器(GPU),”Arteris产品管理与营销副总裁安迪·奈廷格尔表示,“长期以来,GPU凭借其高度并行的可编程架构,能够支持各类运算任务。它的运算效率或许并非最优,但就‘通过软件而非硬件元件驱动运算’这一点而言,GPU与现场可编程门阵列(FPGA)的特性最为接近。”
尽管GPU具备高度可编程性,但其功耗也相当惊人,因此设计人员在开发嵌入式人工智能应用时,会倾向于选择其他解决方案。一种常用方案是:采用功能相对固定的神经网络处理器(NPU),搭配一颗可编程数字信号处理器(DSP)。
“英伟达的GPU采用CUDA C++编程语言与基于线程束的编程模型,依赖于硬件密集型缓存存储系统,”Quadric首席营销官史蒂夫·罗迪指出,“这种架构让程序员无需关注数据如何映射到内存,只需交由硬件处理底层细节。DSP同样支持C/C++编程,且功耗远低于GPU——原因在于DSP通常采用片上静态随机存取存储器(SRAM),而非缓存;同时通过直接内存访问(DMA)技术传输数据,而非频繁调取缓存行。不过,DSP在人工智能运算性能上存在短板:它无法高效执行矩阵运算,数据并行处理能力也较为有限。而神经网络处理器(NPU)擅长处理人工智能核心的矩阵运算,却又缺乏可编程性。我们研发的通用型神经网络处理器(GPNPU),则融合了NPU的矩阵运算效率与DSP的低功耗可编程特性,打造出一款适用于嵌入式人工智能场景的最优处理器。”
Synaptics最新推出的嵌入式人工智能处理器,集成了支持Helium DSP扩展指令集的 Arm 中央处理器(CPU)与微控制器(MCU),以及谷歌基于精简指令集第五代(RISC-V)架构的Coral神经网络处理器(NPU)。Blaize则采用自主研发的可编程图流处理器(GSP),并依托Arteris的片上网络(NoC)知识产权(IP),面向多模态人工智能应用场景提供解决方案。
数据中心同样具备多种可编程方案可选。“数据处理器(DPU)是一种智能网络接口,可用于在系统不同组件之间转发数据包,”奈廷格尔补充道,“数据中心领域还部署了P4可编程交换机,这类交换机专为可编程数据包处理流水线而设计。此外,还有可重构阵列——粗粒度可重构架构(CGRA)能够承担特定运算任务,它支持基于软件的高层抽象重构,抽象层级高于FPGA,因此可在灵活性、运算效率与流水线人工智能推理任务之间实现平衡。”
粗粒度可重构架构(CGRA)是一项新兴技术,其定位介于FPGA与GPU之间,能够提供更均衡的混合运算方案。“这或许是当前各类技术融合趋势中最具潜力的方向,”奈廷格尔评价道,“该技术目前仍处于实验阶段:部分相关技术已达到可商用的基准水平,而另一些新技术虽展现出应用前景,但尚未经过全面验证。未来,CGRA有望在其专属应用领域内,成为具有变革性意义的技术。我始终主张,针对特定任务采用‘FPGA+GPU+XPU’的混合架构,这或许是最契合当下需求的解决方案。”
粗粒度可重构架构(CGRA)与现场可编程模拟阵列(FPAA),将可重构计算的灵活性拓展至传统数字逻辑之外的领域。“这一市场目前仍处于早期阶段,其市场需求规模与成熟度尚存在不确定性,”Altera业务管理部主管文卡特·亚达瓦利表示,“尤其是在生态系统支持、工具链成熟度,以及与现有FPGA和ASIC设计流程的兼容性等方面,仍有诸多问题亟待解决。”
可编程性、可重构性与定制化的区别
芯片可以是可编程的、可重构的,也可以两者兼具——现场可编程门阵列(FPGA)就是典型的“双特性芯片”。
“FPGA的可编程性体现在:整个硬件架构本身支持编程,这意味着我们可以完全改变FPGA上的芯片设计方案,”Baya Systems首席商务官南丹·纳亚姆帕利解释道,“另一层含义则是:‘芯片上的各类组件与互联架构已预先集成,我们可通过编程配置各组件的带宽分配、延迟参数,并设置任务优先级。’这同样属于可编程的范畴,但其灵活性相对有限——因为这种操作并未彻底改变芯片功能,只是对资源进行了重新划分与配置。”
以中央处理器(CPU)为例:部分CPU兼具可编程性与可配置性,但能力范围存在明确边界。“从广义可编程性来看,CPU领域就有不少典型案例,比如基于精简指令集第五代(RISC-V)架构或指令集架构(ISA)的可编程CPU,同时也涌现出一些新型架构技术,”亚达瓦利说道,“FPGA能够提供极致的灵活性,支持部署并运行各类工作负载。而RISC-V架构则适用于一些设备级的配置场景——例如通过简单的参数配置,协助其他芯片协同工作;也可以是一款具备有限可编程能力的RISC-V处理器。”
极致的可编程性始终是FPGA的核心优势。“设计人员可以按需修改输入输出接口(I/O)、调整芯片架构、优化所有运算环节,”亚达瓦利强调,“其他类型的可编程技术,则更多聚焦于特定场景的有限应用。比如,针对一款标准芯片产品,如何通过技术手段增加其灵活性?这类方案通常只能实现一定程度的可配置性,而非完全可编程。”
此外,还可通过电源架构实现芯片定制化。“芯片定制化主要有两种实现路径,”Movellus首席执行官莫·费萨尔介绍道,“第一种是为每颗芯片量身定制专属电源网格与优化方案。假设有一百万颗芯片,搭配一百万种不同的封装方案,那么每颗芯片都具备独一无二的特性。不过,我们也可以让电源架构具备一定的可编程性,使其适配不同的封装方案——因为每种封装的谐振特性都存在差异。只要电源架构的可编程性足够强,就能抵消不同封装带来的性能差异。这一技术的收益相当可观:封装导致的电压跌落问题,会直接决定芯片的最低工作电压(Vmin),进而影响芯片功耗、散热设计等一系列关键指标。”
人工智能与模拟技术兴起对DSP的影响
现代系统级芯片(SoC)正经历高速迭代,其中一个显著变化是:芯片需要处理的模拟信号内容日益增多,这无疑给数字信号处理器(DSP)带来了额外的运算负担。
“如今的芯片早已不局限于数字功能——为满足5G通信、汽车雷达、物联网设备等应用需求,芯片集成了射频(RF)、数模混合信号与传感器接口等模块,”楷登电子(Cadence)产品管理与营销高级总监、计算机视觉/人工智能产品负责人阿莫尔·博卡尔指出,“从功能角度来看,这无疑是一大进步,但也意味着DSP需要处理的信号不再是理想的数字信号。现实世界中的模拟信号往往伴随噪声、失真与波动,因此DSP必须投入更多算力进行信号净化。这一需求推动了智能校准与补偿算法的快速发展。”
受此影响,DSP的角色定位也随之拓展。“它不再仅仅是执行数值运算的工具,而是具备了‘模拟感知处理’能力,”博卡尔补充道,“例如通过自适应滤波技术减少信号干扰、对射频功率放大器进行线性化处理、修正模数转换器(ADC)与数模转换器(DAC)的误差等。这些新增功能提升了芯片设计复杂度,因此DSP架构正朝着高度并行化方向发展,且往往集成专用加速器,以满足日益增长的性能需求。”
数控模拟技术让DSP具备了更强的可编程性。“如今,只要芯片具备基础的数据流架构,即便核心运算单元是模拟DSP,也可以在信号传输路径中抽取部分信号并转换为数字信号,”新思科技(Synopsys)Ansys 产品营销总监马克·斯温嫩表示,“设计人员可对这些数字信号执行各类数学算法分析与软件编程,进行全面的数字化运算与逻辑推演。在确定反馈信号参数后,再将其转换回模拟信号并输入芯片。这种技术被称为数控模拟技术,它将可编程性、软件与数字电路融入信号反馈流程。尽管其运算速度与简洁性不及纯模拟方案,但可编程性更强,软件控制也更为灵活。”
展望未来,多项值得关注的技术趋势正在显现。“人工智能正开始在解决SoC模拟内容增多的难题中发挥重要作用,”博卡尔说道,“传统上,DSP依赖固定模型修正模拟信号的缺陷,但在实际应用环境变化时,这类模型往往难以胜任。而人工智能的优势正在于此:机器学习技术能够从设备实际运行数据中学习规律,动态调整校准参数,实时预测模数转换器(ADC)或射频链路的非线性失真,并即时进行误差修正。”
人工智能还让DSP具备了更强的自适应性。“相比静态滤波器或均衡器,人工智能驱动的算法能够随着环境条件变化持续优化自身性能——无论是温度波动、元件老化还是信号干扰,都能实时适配,”博卡尔强调,“这一点对于5G射频设备、汽车传感器等运行环境多变的系统而言,尤为关键。”
业内人士普遍认为,未来的技术方案将是经典算法与人工智能的融合。“我们曾与汽车领域的客户探讨过DSP与人工智能的分工问题,”弗劳恩霍夫应用研究促进协会(Fraunhofer IIS)自适应系统工程部门高效电子学系主任安迪·海内希表示,“以雷达系统为例,其运算流程需要执行三次不同的快速傅里叶变换(FFT)。目前已有部分方案尝试用人工智能取代FFT运算,但我们坚信,传统FFT算法在功耗效率上更具优势——因为FFT算法可实现高度优化,而若要通过人工智能达到同等运算精度,则需要构建规模庞大的神经网络模型。此外,FFT算法的运算过程更具确定性与可解释性。因此,我们认为理想方案是:由FFT算法承担基础信号处理任务,再由人工智能完成目标识别等上层任务。但要让人工智能完全取代传统DSP的所有功能,目前来看并不现实。”