可编程芯片：在迭代中掌控未来芯片话语权！

集成电路（IC）与系统级芯片（SoC）正整合多种处理单元，既能优化当前工作负载，也能为未来技术发展预留适配空间。

过去，人们只需在专用集成电路（ASIC）、现场可编程门阵列（FPGA）或数字信号处理器（DSP）之间做简单选择，如今则演变为多种处理器类型与架构的组合方案，涵盖不同层级的可编程性与定制化能力。运算速度固然至关重要，但技术迭代速度如此迅猛，以至于当下的最优解决方案，可能在芯片完成流片量产时就已落伍。一旦出现新的人工智能模型、内存标准或其他技术升级，相较于成本高昂的芯片重新流片，可编程组件无疑是更简便的应对方案——这甚至可以包括直接替换一颗可编程芯粒。

芯片支持现场重编程或重构的能力，让设计人员得以重新分配工作负载，并为消费者提供硬件级升级，无需用户购置昂贵的新设备。现场可编程门阵列（FPGA）与数字信号处理器（DSP）是目前最常见的两类可编程组件，但市场上也存在其他同类产品。

“最直观的例子就是图形处理器（GPU），”Arteris产品管理与营销副总裁安迪·奈廷格尔表示，“长期以来，GPU凭借其高度并行的可编程架构，能够支持各类运算任务。它的运算效率或许并非最优，但就‘通过软件而非硬件元件驱动运算’这一点而言，GPU与现场可编程门阵列（FPGA）的特性最为接近。”

尽管GPU具备高度可编程性，但其功耗也相当惊人，因此设计人员在开发嵌入式人工智能应用时，会倾向于选择其他解决方案。一种常用方案是：采用功能相对固定的神经网络处理器（NPU），搭配一颗可编程数字信号处理器（DSP）。

“英伟达的GPU采用CUDA C++编程语言与基于线程束的编程模型，依赖于硬件密集型缓存存储系统，”Quadric首席营销官史蒂夫·罗迪指出，“这种架构让程序员无需关注数据如何映射到内存，只需交由硬件处理底层细节。DSP同样支持C/C++编程，且功耗远低于GPU——原因在于DSP通常采用片上静态随机存取存储器（SRAM），而非缓存；同时通过直接内存访问（DMA）技术传输数据，而非频繁调取缓存行。不过，DSP在人工智能运算性能上存在短板：它无法高效执行矩阵运算，数据并行处理能力也较为有限。而神经网络处理器（NPU）擅长处理人工智能核心的矩阵运算，却又缺乏可编程性。我们研发的通用型神经网络处理器（GPNPU），则融合了NPU的矩阵运算效率与DSP的低功耗可编程特性，打造出一款适用于嵌入式人工智能场景的最优处理器。”

Synaptics最新推出的嵌入式人工智能处理器，集成了支持Helium DSP扩展指令集的 Arm 中央处理器（CPU）与微控制器（MCU），以及谷歌基于精简指令集第五代（RISC-V）架构的Coral神经网络处理器（NPU）。Blaize则采用自主研发的可编程图流处理器（GSP），并依托Arteris的片上网络（NoC）知识产权（IP），面向多模态人工智能应用场景提供解决方案。

数据中心同样具备多种可编程方案可选。“数据处理器（DPU）是一种智能网络接口，可用于在系统不同组件之间转发数据包，”奈廷格尔补充道，“数据中心领域还部署了P4可编程交换机，这类交换机专为可编程数据包处理流水线而设计。此外，还有可重构阵列——粗粒度可重构架构（CGRA）能够承担特定运算任务，它支持基于软件的高层抽象重构，抽象层级高于FPGA，因此可在灵活性、运算效率与流水线人工智能推理任务之间实现平衡。”

粗粒度可重构架构（CGRA）是一项新兴技术，其定位介于FPGA与GPU之间，能够提供更均衡的混合运算方案。“这或许是当前各类技术融合趋势中最具潜力的方向，”奈廷格尔评价道，“该技术目前仍处于实验阶段：部分相关技术已达到可商用的基准水平，而另一些新技术虽展现出应用前景，但尚未经过全面验证。未来，CGRA有望在其专属应用领域内，成为具有变革性意义的技术。我始终主张，针对特定任务采用‘FPGA+GPU+XPU’的混合架构，这或许是最契合当下需求的解决方案。”

粗粒度可重构架构（CGRA）与现场可编程模拟阵列（FPAA），将可重构计算的灵活性拓展至传统数字逻辑之外的领域。“这一市场目前仍处于早期阶段，其市场需求规模与成熟度尚存在不确定性，”Altera业务管理部主管文卡特·亚达瓦利表示，“尤其是在生态系统支持、工具链成熟度，以及与现有FPGA和ASIC设计流程的兼容性等方面，仍有诸多问题亟待解决。”

可编程性、可重构性与定制化的区别

芯片可以是可编程的、可重构的，也可以两者兼具——现场可编程门阵列（FPGA）就是典型的“双特性芯片”。

“FPGA的可编程性体现在：整个硬件架构本身支持编程，这意味着我们可以完全改变FPGA上的芯片设计方案，”Baya Systems首席商务官南丹·纳亚姆帕利解释道，“另一层含义则是：‘芯片上的各类组件与互联架构已预先集成，我们可通过编程配置各组件的带宽分配、延迟参数，并设置任务优先级。’这同样属于可编程的范畴，但其灵活性相对有限——因为这种操作并未彻底改变芯片功能，只是对资源进行了重新划分与配置。”

以中央处理器（CPU）为例：部分CPU兼具可编程性与可配置性，但能力范围存在明确边界。“从广义可编程性来看，CPU领域就有不少典型案例，比如基于精简指令集第五代（RISC-V）架构或指令集架构（ISA）的可编程CPU，同时也涌现出一些新型架构技术，”亚达瓦利说道，“FPGA能够提供极致的灵活性，支持部署并运行各类工作负载。而RISC-V架构则适用于一些设备级的配置场景——例如通过简单的参数配置，协助其他芯片协同工作；也可以是一款具备有限可编程能力的RISC-V处理器。”

极致的可编程性始终是FPGA的核心优势。“设计人员可以按需修改输入输出接口（I/O）、调整芯片架构、优化所有运算环节，”亚达瓦利强调，“其他类型的可编程技术，则更多聚焦于特定场景的有限应用。比如，针对一款标准芯片产品，如何通过技术手段增加其灵活性？这类方案通常只能实现一定程度的可配置性，而非完全可编程。”

此外，还可通过电源架构实现芯片定制化。“芯片定制化主要有两种实现路径，”Movellus首席执行官莫·费萨尔介绍道，“第一种是为每颗芯片量身定制专属电源网格与优化方案。假设有一百万颗芯片，搭配一百万种不同的封装方案，那么每颗芯片都具备独一无二的特性。不过，我们也可以让电源架构具备一定的可编程性，使其适配不同的封装方案——因为每种封装的谐振特性都存在差异。只要电源架构的可编程性足够强，就能抵消不同封装带来的性能差异。这一技术的收益相当可观：封装导致的电压跌落问题，会直接决定芯片的最低工作电压（Vmin），进而影响芯片功耗、散热设计等一系列关键指标。”

人工智能与模拟技术兴起对DSP的影响

现代系统级芯片（SoC）正经历高速迭代，其中一个显著变化是：芯片需要处理的模拟信号内容日益增多，这无疑给数字信号处理器（DSP）带来了额外的运算负担。

“如今的芯片早已不局限于数字功能——为满足5G通信、汽车雷达、物联网设备等应用需求，芯片集成了射频（RF）、数模混合信号与传感器接口等模块，”楷登电子（Cadence）产品管理与营销高级总监、计算机视觉/人工智能产品负责人阿莫尔·博卡尔指出，“从功能角度来看，这无疑是一大进步，但也意味着DSP需要处理的信号不再是理想的数字信号。现实世界中的模拟信号往往伴随噪声、失真与波动，因此DSP必须投入更多算力进行信号净化。这一需求推动了智能校准与补偿算法的快速发展。”

受此影响，DSP的角色定位也随之拓展。“它不再仅仅是执行数值运算的工具，而是具备了‘模拟感知处理’能力，”博卡尔补充道，“例如通过自适应滤波技术减少信号干扰、对射频功率放大器进行线性化处理、修正模数转换器（ADC）与数模转换器（DAC）的误差等。这些新增功能提升了芯片设计复杂度，因此DSP架构正朝着高度并行化方向发展，且往往集成专用加速器，以满足日益增长的性能需求。”

数控模拟技术让DSP具备了更强的可编程性。“如今，只要芯片具备基础的数据流架构，即便核心运算单元是模拟DSP，也可以在信号传输路径中抽取部分信号并转换为数字信号，”新思科技（Synopsys）Ansys 产品营销总监马克·斯温嫩表示，“设计人员可对这些数字信号执行各类数学算法分析与软件编程，进行全面的数字化运算与逻辑推演。在确定反馈信号参数后，再将其转换回模拟信号并输入芯片。这种技术被称为数控模拟技术，它将可编程性、软件与数字电路融入信号反馈流程。尽管其运算速度与简洁性不及纯模拟方案，但可编程性更强，软件控制也更为灵活。”

展望未来，多项值得关注的技术趋势正在显现。“人工智能正开始在解决SoC模拟内容增多的难题中发挥重要作用，”博卡尔说道，“传统上，DSP依赖固定模型修正模拟信号的缺陷，但在实际应用环境变化时，这类模型往往难以胜任。而人工智能的优势正在于此：机器学习技术能够从设备实际运行数据中学习规律，动态调整校准参数，实时预测模数转换器（ADC）或射频链路的非线性失真，并即时进行误差修正。”

人工智能还让DSP具备了更强的自适应性。“相比静态滤波器或均衡器，人工智能驱动的算法能够随着环境条件变化持续优化自身性能——无论是温度波动、元件老化还是信号干扰，都能实时适配，”博卡尔强调，“这一点对于5G射频设备、汽车传感器等运行环境多变的系统而言，尤为关键。”

业内人士普遍认为，未来的技术方案将是经典算法与人工智能的融合。“我们曾与汽车领域的客户探讨过DSP与人工智能的分工问题，”弗劳恩霍夫应用研究促进协会（Fraunhofer IIS）自适应系统工程部门高效电子学系主任安迪·海内希表示，“以雷达系统为例，其运算流程需要执行三次不同的快速傅里叶变换（FFT）。目前已有部分方案尝试用人工智能取代FFT运算，但我们坚信，传统FFT算法在功耗效率上更具优势——因为FFT算法可实现高度优化，而若要通过人工智能达到同等运算精度，则需要构建规模庞大的神经网络模型。此外，FFT算法的运算过程更具确定性与可解释性。因此，我们认为理想方案是：由FFT算法承担基础信号处理任务，再由人工智能完成目标识别等上层任务。但要让人工智能完全取代传统DSP的所有功能，目前来看并不现实。”

可编程芯片：在迭代中掌控未来芯片话语权！

电脑技巧更多>>

网络技术更多>>

直播创作更多>>

智能汽车更多>>

数码科技更多>>

手机评测更多>>