1. 项目概述:当零信任遇见万亿级边缘设备,硬件安全如何破局?
在分布式计算架构席卷全球的今天,我们正站在一个前所未有的十字路口。一方面,物联网和人工智能物联网设备正以惊人的速度增长,预计未来十年将达到万亿规模。这些设备渗透到工业控制、智能家居、自动驾驶等各个角落,成为物理世界与数字世界交互的神经末梢。另一方面,网络攻击的威胁与日俱增,攻击面随着设备的指数级扩张而急剧放大。传统的、基于网络边界的“城堡与护城河”式安全模型,在物理边界已然模糊的分布式系统中,显得力不从心。
这就引出了“零信任”安全框架的核心思想:永不信任,始终验证。它要求系统中的每一个节点,无论其位置在云端还是边缘,都必须具备独立的、硬件支持的身份验证和加密能力。然而,对于海量的、成本极度敏感的边缘设备而言,为每一颗芯片都配备一套完整、强大的硬件安全模块,在经济上几乎是不可能的任务。这构成了一个根本性的矛盾:安全必须无处不在,但资源却极其有限。
我从事芯片安全设计多年,亲眼见证了从早期为高端服务器设计独立安全芯片,到如今必须为成本仅几美元的微控制器嵌入安全功能的转变。这场变革的核心挑战,已从“如何实现最强的安全”,转变为“如何在极致的成本、功耗和面积约束下,实现足够且可持续的安全”。本文要探讨的,正是应对这一挑战的激进思路:从物理设计到算法层面的系统性设计复用,以及通过机器学习实现硬件“打补丁”的能力。这不仅是技术路径的革新,更是对芯片设计方法论的一次根本性重构。
2. 硬件安全基石:信任根的演进与现状解析
任何安全系统的构建都始于一个牢不可破的“信任根”。在硬件层面,这通常意味着两个核心功能:身份唯一性和动态随机性。前者用于标识“你是谁”,后者用于生成每次会话都不同的密钥,确保“你的通信不可预测”。
2.1 物理不可克隆函数:硅片的“指纹”
物理不可克隆函数的核心思想非常巧妙:它利用芯片制造过程中无法避免、也无法精确控制的微观物理差异(如晶体管阈值电压的微小偏差),为每一颗芯片生成一个独一无二的“数字指纹”。你可以把它想象成硅片的DNA。理想的PUF应该像指纹一样,唯一、稳定且不可预测。
目前主流的PUF架构百花齐放,各有优劣:
- 基于存储器的PUF:最常见的是SRAM PUF,利用SRAM单元上电时的随机初始状态。其优势是面积效率高,因为SRAM本就是片上系统中最普遍的模块之一。但早期的SRAM PUF存在稳定性问题,且与内存的正常功能冲突(需要先上电再读取,无法同时进行)。最新的研究,如将PUF与TRNG功能统一在同一个SRAM宏内的设计,通过复用列外围电路并利用位线放电时间数字化,实现了功能共存和更高的稳定性。
- 基于延迟的PUF:利用信号在两条精心设计的路径中的传播时间差来生成响应。这类PUF挑战-响应对数量庞大,但受工艺、电压、温度变化影响显著,需要复杂的校准电路,面积和功耗开销较大,且对布局布线非常敏感,不利于自动化设计流程。
- 基于亚稳态的PUF:利用锁存器或仲裁器在亚稳态点附近的随机坍缩行为。它能产生高质量的随机性,但通常面积较大,且原生比特错误率较高。
- 单稳态PUF:这是我个人非常看好的一类技术方向。它通过产生直流电压并利用逻辑网络进行二值化来工作。由于其核心是直流电压比较,对布局布线的寄生参数和时序不敏感,这使其天生适合“浸入逻辑”的设计。最新的单稳态PUF通过片上传感器融合和运行时自适应技术,已经能够在不依赖复杂纠错码的情况下,将比特错误率降至极低水平,实现了“无ECC”运行,大幅降低了整体面积和能耗。
实操心得:PUF选型的核心权衡在为边缘设备选型PUF时,不能只看论文里的“原生比特错误率”或“每比特面积”。你必须通盘考虑:
- 系统集成成本:这个PUF模块能否像标准单元一样被综合工具自动布局布线?是否需要特殊工艺模块或手动布局?后者的NRE(非重复性工程)成本在量产时是致命的。
- 总拥有成本:必须将PUF核心、必要的后处理电路(如模糊提取器)以及纠错码的面积和功耗加起来看。一个原生BER很低但无需ECC的PUF,其总成本可能远低于一个原生BER高但核心面积小的PUF。
- 环境适应性:你的设备工作温度范围是多少(-40°C到125°C?)供电电压波动有多大?PUF的响应在这些条件下是否依然稳定?必须要求供应商或自己的测试团队提供完整的PVT(工艺、电压、温度)角数据。
2.2 真随机数生成器:熵的来源
如果说PUF是静态的身份证,那么TRNG就是动态的密码本生成器。它利用电路中的固有噪声(如热噪声、散粒噪声)或抖动作为随机性来源,产生无法预测的比特流,用于生成会话密钥、随机数和初始化向量。
TRNG的设计同样追求高吞吐率、低功耗和低面积。近年来有几个明显的趋势:
- 基于抖动的TRNG:利用环形振荡器相位中的抖动积累,是目前能效比和面积效率非常出色的方案。例如,通过“三边沿”环形振荡器结构,让三个相位差120度的信号竞争,最终随机坍缩到一个频率,这种设计能天然抵消工艺偏差的影响。
- 基于亚稳态的TRNG:通过故意违反锁存器的建立/保持时间,使其进入亚稳态来产生随机比特。这类设计随机性质量高,但吞吐率提升受限于亚稳态建立和分辨所需的时间。
- 混沌映射TRNG:利用数字逻辑实现混沌系统,结构紧凑,近年来能效提升显著。
- 混合型TRNG:结合多种随机源(如抖动+亚稳态),以提升输出熵的质量和对抗环境变化的鲁棒性,但通常以更高的功耗为代价。
一个关键的避坑点:后处理与健康测试纯粹的模拟噪声源输出往往存在偏差(0和1的概率不相等)和相关性。因此,一个实用的TRNG必须包含熵提取和后处理模块(如Von Neumann校正器、哈希函数)。更重要的是,必须集成在线健康测试功能,实时监测随机源是否“健康”,防止因电路老化或外部干扰导致随机性质量下降,这在国际标准(如NIST SP 800-90B)中有明确要求。在设计时,一定要为这些数字逻辑模块预留足够的面积和功耗预算。
3. 激进设计复用:将安全“溶解”在芯片中
理解了安全基石后,我们面临最现实的问题:如何以近乎零的边际成本,将这些功能塞进一个已经寸土寸金的边缘设备芯片中?答案就是激进的设计复用——不是简单地把一个安全IP核丢进去,而是让它与现有电路“骨肉相连”。
3.1 内存内安全原语:让存储单元“身兼二职”
最直接的复用对象就是片上存储器,尤其是SRAM。几乎所有的数字芯片都离不开它。内存内安全的核心思想是:让同一套存储阵列和外围电路,既能执行正常的数据存储/读取,又能作为PUF或TRNG的熵源。
以一项前沿工作为例,它通过在SRAM列外围增加少量电路,实现了统一的动态TRNG和静态多比特PUF。其精妙之处在于:
- TRNG模式:禁用所有字线,让位线电容通过一整列存储单元的泄漏电流放电。由于参与单元众多,器件失配的影响被平均掉,主导放电时间抖动的是所有单元泄漏电流的噪声总和,从而产生高质量的随机性。
- PUF模式:选中一个单元,利用其读电流对位线放电,这个电流由晶体管固有的失配决定,从而生成稳定的PUF响应。更妙的是,通过巧妙的半选机制,可以从相邻单元对中提取多个比特,提升了PUF的容量密度。
这种设计的优势是革命性的:
- 零集成成本:它完全兼容现有的SRAM编译器流程。设计者只需要像调用一个稍大的SRAM宏一样调用它,无需处理复杂的接口和集成验证。
- 物理级混淆:攻击者无法从物理上区分哪部分电路是“安全模块”,因为它就是内存本身。这大大增加了物理攻击(如微探针探测)的难度。
- 资源复用:几乎复用了全部存储阵列和大部分外围电路,面积开销极低(可低至12%甚至更少,当在包含多个子阵列的大内存中摊销时,开销几乎可忽略)。
除了SRAM,类似的思路也被应用于嵌入式DRAM、eFlash甚至新型的非易失存储器(如RRAM、MRAM)中。选择哪种内存作为载体,取决于目标芯片的主流存储技术。
3.2 浸入逻辑的安全原语:与处理单元浑然一体
比复用内存更激进的,是将安全原语直接“溶解”在标准数字逻辑中。想象一下,你的加密协处理器或CPU核心,其本身的一部分电路在特定模式下,就能变身为TRNG或PUF。
这带来了几个层面的复用:
- 设计流程复用:安全模块完全由标准单元构成,可以用完全自动化的综合、布局、布线流程实现,设计门槛和成本极低。
- 电路复用:已有研究展示了如何通过复用加密数据路径来实现TRNG。例如,通过对脉冲锁存时钟进行过度拉伸,故意违反保持时间以诱发亚稳态,或者形成组合环路产生抖动振荡,从而将加密硬件本身转化为一个高质量的随机熵源。密钥生成就在使用它的逻辑内部完成,实现了极致的数据局部性和物理混淆。
- 面积复用:安全功能不占用额外的、可被识别的独立区域,而是与功能逻辑共享硅面积。
实现挑战与应对: 最大的挑战在于逻辑综合和布局布线工具的不可预测性。工具为了优化时序和面积,会把逻辑门打散、重排、到处放置。这对于依赖精确匹配或延迟的PUF/TRNG架构是灾难性的。
因此,“浸入逻辑”的架构必须对布局不敏感。单稳态PUF是目前的优解,因为它依赖的是直流电压比较,而不是微妙的时序关系。即使周围的逻辑门布局变化,只要供电网络稳定,其产生的电压偏差相对固定。一些设计采用特殊的、对版图依赖变化不敏感的标准单元来构建PUF核心;另一些则通过将单元排列成非常规则的阵列来规避问题,但这会牺牲一些布局的灵活性。
4. 物理环境感知:为芯片装上“火眼金睛”
零信任要求设备不仅验证身份,还要持续评估自身所处的物理环境是否安全。这意味着芯片需要集成低成本的“传感器”,来探测物理攻击的迹象。
4.1 非侵入式攻击探测:以功耗分析为例
功耗分析攻击是侧信道攻击的“经典款”。攻击者只需在芯片电源引脚上串联一个几美元的电流探头,通过分析加密操作时功耗的细微波动,就能反推出密钥。探测这种攻击,本质上就是检测电源引脚外阻抗的异常变化。
早期的检测方案比较简单,例如在数字低压差稳压器内部集成一个电阻监测模块,只能发现串联的电阻探头。但更专业的攻击会使用电流探头或对PCB做手脚,这需要监测阻抗的实部和虚部(即电阻和电感/电容成分)。
最近出现的一种全数字、宽频带阻抗监控方案颇具启发性。它通过一个环形振荡器电压传感器和一个可变频率的电流激励源,在运行时主动“探测”电源网络从直流到2GHz的阻抗特性。PCB上的走线、封装引线、键合线都会在特定频率产生谐振峰,这套系统能建立一个阻抗“指纹”。当外部连接任何探测设备时,这个指纹就会改变,从而触发警报。
关键设计要点:
- 自校准与抗干扰:芯片本身的工艺偏差、电压波动和温度变化不能误触发报警。该方案采用比率测量法(有/无电流激励下的读数比),有效抑制了共模干扰。
- 低成本集成:整个传感器面积很小,可以设计成直接放在电源焊盘下方的“垫上电路”,几乎不占用额外核心面积,非常适合 ubiquitous deployment。
- 针对电磁攻击:除了功耗分析,电磁探测同样危险。除了采用底层金属布线、上层金属屏蔽的“被动防御”策略,也有研究通过集成全数字的双线圈传感器来主动探测靠近芯片的电磁探头。
4.2 侵入式攻击探测:对抗激光电压探测
如果说功耗分析是“隔山打牛”,那么激光电压探测就是“精确手术”。攻击者使用聚焦的激光束照射芯片背面,通过检测晶体管开关时反射光的微弱调制,直接读取内部信号。这种攻击功率极低,不会干扰电路工作,极其隐蔽。
检测LVP的难度远高于激光故障注入。因为故障注入需要高功率激光来翻转比特,会产生大量电子空穴对,容易被分布式的体电流传感器检测到。而LVP的激光强度很弱,产生的载流子微乎其微。
一项突破性的方案是:改造标准单元库,在每个单元的晶体管中嵌入微型光电传感器。具体来说,在每隔一个晶体管指条中制作一个PN结作为光电二极管。当激光照射到芯片任何位置时,附近的标准单元都能感知到。这些传感器的信号被局部聚合,再通过一个简单的逻辑树汇总,最终产生一个全局的“检测到攻击”标志。
这种方案的革命性在于:
- 100%面积覆盖:攻击者无法找到一个不被传感器覆盖的“安全”区域来放置激光点。
- 全自动化设计:传感器作为标准单元的一部分,设计规则完全兼容,可以随数字电路一起由工具自动布局布线。
- 差分抑制漂移:通过对称和差分的方式聚合信号,可以有效抑制工艺、电压、温度变化带来的基线漂移,提高检测可靠性。
当然,其代价是标准单元面积几乎翻倍。未来的挑战正是在于如何进一步降低这个开销,使其能应用于对成本极度敏感的终端。
5. 硬件补丁:用机器学习让安全“活”起来
软件可以通过打补丁来修复漏洞,硬件为什么不行?传统的硬件安全措施一旦流片就固化了,面对新出现的攻击手法无能为力。硬件补丁的理念,就是让安全防护能力也能在芯片生命周期内更新和增强。
5.1 从静态防御到动态自适应
传统的侧信道攻击对抗措施可以分为几类:
- 设计特定型:如双轨预充电逻辑,需要为每个设计重新定制,成本高。
- 设计可重用型:如集成了对抗功能的电压调节器IP,可以保护不同设计,但其对抗逻辑是固定的,无法升级。
- 设计自适应型(硬件补丁):这才是未来的方向。其核心是一个基于机器学习的运行时功率模型。
5.2 机器学习驱动的功率补偿架构
设想这样一个架构:在加密模块旁边,有一个轻量级的机器学习模型(例如线性回归器,因为功耗与电路活动性大致呈线性关系)。这个模型的输入是经过特征提取的电路活动信息(如某些中间寄存器的值、操作码等),输出则是一个预测的“信息敏感功耗”分量。
这个预测值被送入一个“功率补偿器”(可以理解为一个数字控制的电流源或功率DAC)。补偿器产生一个与预测的信息泄露功耗幅度相等、相位相反的补偿电流,注入到电源网络中,从而从外部观测上看,功耗轨迹变得平坦,与处理的数据不再相关。
最精妙的部分在于“补丁”:当发现新的攻击方法(例如,攻击者找到了一个新的、更强大的特征提取点),研究人员可以在实验室分析这种攻击,然后重新训练这个片上机器学习模型的权重。更新后的权重文件可以通过固件升级的方式,分发到所有已部署的设备中。设备加载新权重后,其功率补偿器就能同时抵御旧的和新发现的攻击。
实测案例:有研究将这套方案应用于不同的密码算法(如AES, PRESENT)及其不同的微架构实现。结果表明,它能将成功提取密钥所需的功耗轨迹数量提升到超过12亿条,达到了顶尖的防护水平。并且,通过更新模型权重,成功为PRESENT算法防御住了一种新发现的攻击,验证了“硬件打补丁”的可行性。
5.3 实现考量与挑战
- 模型轻量化:边缘设备的计算和存储资源有限,模型必须极其精简。线性模型、小型神经网络是首选。特征提取也需要精心设计,以降低维度。
- 安全性:用于更新权重的通道本身必须是安全的,防止攻击者上传恶意权重破坏防护。
- 覆盖范围:目前这类方案主要针对功耗和电磁侧信道。如何将其扩展到应对故障注入、激光探测等更广泛的物理攻击,是未来的研究方向。
6. 总结与展望:通往可持续硬件安全的道路
回顾这场从物理设计到机器学习的硬件安全变革,其核心逻辑是清晰的:在资源受限的边缘实现零信任安全,必须打破传统设计藩篱,追求极致的复用和智能的适应。
- 在信任根层面,通过“内存内”和“浸入逻辑”原语,将安全功能与现有子系统深度融合,最大化复用面积、功耗和设计努力,将安全的经济成本降至最低。
- 在物理感知层面,开发与标准单元流程兼容的全数字、低成本传感器,为芯片提供全天候、全区域的物理攻击探测能力,满足零信任框架对持续环境评估的要求。
- 在可持续性层面,引入基于机器学习的硬件补丁机制,让安全防护从“出厂即固化”变为“可在线升级”,从而应对不断变化的威胁态势,延长设备的安全生命周期。
这条路远未走完。随着异质集成技术的发展,未来可能会在单个封装内集成多个小芯片(Chiplet),安全功能可能被分解到不同的芯粒中,这又将带来新的挑战和机遇,例如芯粒间互连的安全、以及如何在不同工艺节点的芯粒上实现统一的安全策略。
从我个人的工程实践来看,最大的感触是,硬件安全正在从一个独立的、附加的“模块”,演变为贯穿芯片架构、电路设计乃至物理实现全流程的“基因”。未来的芯片设计师,或许不再需要专门去“添加”安全功能,而是在设计内存、处理器、电源管理电路时,就已经自然而然地考虑了安全的植入与复用。这要求我们具备更系统、更跨层的视角。安全不再是芯片设计完成后的“补丁”,而是与性能、功耗、面积同等重要的、在架构阶段就必须确立的“第一性原理”。