基于多时间尺度建模自动特征提取和通道注意力机制的锂离子电池健康状态估计
摘 要 准确估计锂离子电池(lithium-ion battery,LIB)的健康状态(state of health,SOH)对于确保储能电站的安全稳定运行至关重要。然而,现有的数据驱动方法通常依赖手工特征提取,并且特征的时间尺度比较单一,很难进行高效且精确的电池健康状态评估。为了解决这些问题,提出了一种基于多时间尺度建模自动特征提取和通道注意力机制的健康状态估计模型。该模型首先将充电过程信息输入多个并行的膨胀卷积模块(dilation convolution module,DCM),从不同时间尺度进行自动特征提取,获得丰富且全面的特征表示。随后,不同尺度的特征通过融合后结合门控循环单元(gated recurrent unit,GRU)提取时间序列的长期依赖关系。模型进一步融入通道注意力机制(efficient channel attention,ECA),对历史信息进行相关性动态权重分配,关注显著特征。最后,在两个公开数据集上验证了本方法的优越性,并与其他常用深度学习模型进行了比较。结果表明,本模型具有较高的SOH估计精度和良好的迁移性,两个数据集上的均方根误差分别仅为0.0110和0.0095,在跨数据集的迁移实验中均方误差仅为0.0092。
关键词 锂离子电池;健康状态;卷积神经网络;注意力机制;时间序列
全球积极推进“双碳”目标的背景下,对稳定高效储能系统的需求不断上升。锂离子电池(lithium-ion battery,LIB)以其高能量密度、长效循环寿命和低自放电特性已成为多种应用中首选的储能解决方案。但是,随着使用年限的增长,锂离子电池性能会逐渐衰退。尤其是当电池容量和功率出现显著下降时,可能引发故障甚至造成火灾或交通安全事故。因此,精确评估电池的健康状态(state of health,SOH)对于保障储能系统的安全和稳定运行尤为重要。
为了提升对电池SOH的估计准确性,业界提出了多种模型方法,主要包括电化学模型、等效电路模型及数据驱动方法。电化学模型通过构建描述电池内部化学反应的详细机理模型,解释电池老化过程。然而,这类模型往往涉及复杂的方程和高度耦合的参数,计算复杂度较高,更适用于基础电化学研究中。等效电路模型则基于电池充放电过程中表现出的关键特征参数(如容量、内阻和循环次数等),通过合适的算法构建这些参数与电池SOH之间的数学关联性。虽然这种方法在理论上能够提供较高的预测准确性,但实际表现严重依赖于所用模型的准确性和假设的合理性。除此之外,由于模型依赖的是对电池物理化学属性的先验认知,并容易受到各种环境和操作条件的干扰,使得它们在预测不同老化状态下的电池SOH时常常存在局限性,进而影响其在实际应用场景中的广泛使用。
基于数据驱动的方法,尤其是在近年来迅猛发展的深度学习领域,通过整合海量数据,能够通过集成大量的数据来尽可能避免引入复杂的电化学机制,表现出良好的预测性能。因此,这一技术在能源存储系统中受到了广泛关注。数据驱动的方法通常是分析LIB数据,提取与SOH相关的健康指标(health indicators,HI)。例如,王琛等基于增量容量分析法,从充电过程中提取容量增量曲线的各项特征如峰值高度、峰值电压及峰面积作为表征电池老化的健康指标,并通过Pearson系数验证了这些健康特征与SOH之间的相关性。Jia等利用改进的麻雀搜索算法(improved sparrow search algorithm,ISSA)优化深度极端学习机(deep extreme learning machine,DELM),从随机局部放电电压和电流数据中提取关键HI,并将其输入到DELM中,以预测随机负载条件下LIB的SOH。Zhu等从充满电后的松弛过程电压曲线中提取了6个统计特征,并采用XGBoost、弹性网和支持向量回归模型估算涵盖130个LiNiCoAl和LiNiCoMn商用电池的3个数据集的电池容量。Lin等通过对电压、温度与增量容量曲线等多个数据源进行分析,提取了影响电池老化进程的七个关键HI作为输入。该研究采用多模型融合策略以增强模型整体性能,公开数据集上的验证结果显示,此方法能够实现较高的SOH估算精度。
这些现有的数据驱动方法在SOH估计问题中确实可行,但也存在明显不足,即某些关键特征提取过程需依赖研究者对电池老化机制的深入了解,且需要进行大量的数学运算。此外,还需要找到合适的数据驱动模型来有效处理从电池循环数据中提取的健康特征。因此,如何在更少或不需先验知识和较低工作量的情况下提取出可以被适当的SOH估计模型处理的有效健康特征,是一个持续的挑战。一个可能的解决方案是利用机器学习算法的强大学习能力和非线性建模能力,自动从原始电池数据中提取特征。例如,李超然等将锂离子电池在恒流-恒压充电过程中的电压、电流、温度曲线直接作为输入,应用一维深度卷积神经网络(convolutional neural networks,CNN)来实现锂离子电池容量估算,进而获取SOH。然而,传统CNN的感受野有限,对长时间序列的学习依赖于更深层次的网络。Fu等采用了膨胀卷积网络来进行特征提取,通过调整扩孔数而不增加卷积核参数数量,以获得更长距离的信息特征,避免了在池化层输入信息丢失的问题。尽管如此,单一时间尺度的特征提取可能无法全面捕捉到电池老化的不同层次的信息,从而影响SOH估计的准确性与鲁棒性。
此外,现有的深度学习模型往往忽略对输入特征的差异化关注,可能导致未能捕获关键特征或过多地纳入无关特征,从而影响模型的性能。作为一种创新的深度学习技术,注意力机制能够实现对特征的自动权重调整,有效提升模型的特征学习能力,因此受到广泛关注。毛百海等将自注意力机制(self-attention,SA)与循环神经网络RNN结合使用,优化了对内在关联性强的特征的重视程度,进而显著提升了SOH估计的预测准确性。Lin等在长短期记忆网络(long short-term memory,LSTM)模型中引入了一种局部注意力机制,通过一个固定窗口中心化地计算注意力权重,更加集中地关注时序信号中的关键局部特征。然而,这些方法主要集中于时序特征间的动态权重,忽略了特征通道之间的相互依赖性。
因此,为了实现不同时间尺度的自动特征提取和特征融合,本文提出了一种新的基于MDCNN-GRU-ECA融合模型(multiscale dilated convolutional neural networks-gated recurrent unit-efficient channel attention,MDGE)的SOH估计方法。首先采用并行的多尺度膨胀卷积来更好地从电压、电流等原始电池数据中提取不同时间尺度的时序特征,并进行多尺度特征融合。然后通过GRU进一步捕捉序列数据中的时间依赖关系,并增强特征表达能力。再利用通道注意力机制显式地建模不同通道之间的依赖关系,从而提高模型的整体性能。为了验证所提出方法的有效性,通过两个公开数据集进行了验证,并与几种常用的深度学习模型进行了比较,结果显示MDGE网络具有更高的SOH估计精度。
这里需要明确的是,本文中的“多尺度”特指建模中的时间尺度,即通过不同时间跨度的数据特征提取来提高模型的预测能力。这与传统物质科学研究中常用的多尺度概念(包括空间尺度,如从原子到宏观尺度的特征)有所不同。在电池健康状态估计中,时间尺度的多样性对于捕捉电池老化过程中的动态变化至关重要。
1 数据集介绍
1.1 NASA数据集
本研究采用的首个电池测试数据集来源于美国国家航空航天局(National Aeronautics and Space Administration,NASA)艾姆斯卓越预测中心(Ames Prognostics Center of Excellence,PCoE)。该数据集包含同一电池型号、容量均为2 Ah的多个样本。研究中特别选取了4块电池的老化数据,编号分别为B0005、B0006、B0007和B0018。这些电池在1.5 A恒流(constant current,CC)模式下充电至电池电压达到4.2 V,随后转入恒压(constant voltage,CV)模式,直至充电电流减至20 mA。放电过程采用2 A的恒定电流进行,直到电池电压分别降至2.7 V、2.5 V、2.2 V及2.5 V。电池的可用容量通过此恒流放电过程获得。如图1(a)所示,电池的容量随着老化逐渐下降。当电池的容量衰减至额定值的70%(即1.4 Ah)时,被认定为达到了寿命终点(end of life,EOL)。图1(b)、(c)展示了电池在第1、50、100、150个循环期间的充电电流与电压图像,充电参数的变化揭示了电池老化过程中显著的规律性,该信息对识别电池老化信号具有重要价值。
图1 NASA电池数据集
1.2 CACLE数据集
本研究使用的第二个电池数据集来源于马里兰大学高级生命周期工程中心(Center for Advanced Life Cycle Engineering,CALCE)。本部分研究涉及4块钴酸锂电池(型号CS2),编号为35、36、37和38,各电池容量为1.1 Ah,且均采用一致的充放电模式。具体操作中,电池以0.5C的倍率进行恒流充电至4.2 V,随后转入恒压充电直到充电电流降至0.05 A。在放电阶段,电池以1C的恒定电流放电至2.7 V截止电压。4块电池的容量伴随循环次数增加表现出衰减趋势,其变化曲线如图2(a)所示。当电池的可用容量下降至额定容量的70%时,被认为达到了寿命终点。此外,图2(b)展示了编号CS2_35的电池在某一充电循环中的电压与电流变化,而图2(c)则显示了不同循环中恒流充电阶段的电压趋势。观察结果表明,随着循环次数的增加,充电时间逐渐缩短,从而揭示了电池性能的逐步退化。
图2 CALCE电池数据集
1.3 数据预处理
SOH可以定义为:
式中,C和Cnorm分别表示LIB的当前容量和标称容量。因此,由于Cnorm是LIB的一个常数特征,当前可用容量C足以代表SOH。考虑到实际放电过程受到用户行为和环境的影响,而充电过程通常遵循固定的协议。因此,通常利用充电过程测量信号来估计SOH。
来自NASA数据集的4块电池在电池充电过程中共记录了约50000个数据点。然而,仅有950条曲线数据适用于电池SOH的估计。这一数量的数据点对于支持神经网络进行深入的参数学习显得不足。为了优化神经网络训练效果并在一定程度上减少测量噪声所引起的估计误差,本研究采用了数据增强策略。具体方法是,在NASA数据集原始数据中引入均值为0、幅度在1%~2%之间的高斯白噪声,通过该手段扩展样本容量至4750。相较之下,CACLE数据集的数据量已足够支持神经网络的参数学习,故未执行任何数据增强处理。
此外,考虑到卷积神经网络通常对输入数据有特定长度的要求,对数据进行了重采样,使重采样后的数据长度统一为128。在将来自CACLE和NASA数据集的样本输入到神经网络模型之前,进行了必要的归一化处理,以确保数据在适当的数值范围内。归一化采用的最小-最大比例法可以表示为公式(2):
式中,Xnormal为归一化数据;Xraw为来自CALCE数据集和NASA数据集的原始数据;Xmin和Xmax分别为原始数据中的最小值和最大值。
2 SOH估计网络模型
2.1 膨胀因果卷积网络
卷积神经网络CNN属于一类前馈神经网络,其主要由交替堆叠的卷积层、池化层和全连接层组成。在这种网络结构中,卷积层通过局部连接实现,使得低层神经元具备特定的感受野,从而能够高效自动提取局部特征。在传统的卷积神经网络设计中,为了整合更广泛的上下文信息并实现全局信息的融合,常常借助池化层或较大的卷积核来扩大感受野,但这样做往往会引起一定程度的信息损失。为了解决这一问题,开发了膨胀卷积神经网络(dilated CNN),该技术在不改变特征图尺寸的前提下增大感受野,避免了信息丢失等副作用。
在处理序列数据时,因果性是一个重要概念,指的是模型的输出只依赖于先前的输入,而非未来的输入。这一特性对于时间序列预测等应用场景至关重要。膨胀因果卷积(dilated causal convolution)技术结合了膨胀卷积和因果卷积的优点,专门用于处理序列数据,常见于时间序列分析与生成模型的应用中。该技术的核心在于同时扩大感受野且保持数据的时序因果性。
膨胀卷积通过引入一个膨胀率参数r来修改卷积核的采样模式。膨胀率定义了卷积核元素之间的间隔。对于一个大小为k的卷积核,膨胀卷积的公式可以表示为:
式中,kr为膨胀卷积核;r为膨胀率;i·r为在输入特征图f上以r为间隔进行采样。
膨胀卷积技术在不牺牲特征图尺寸的前提下有效增大了感受野,进而增强了模型对更大尺度特征的提取能力。然而,由于该技术造成输入特征中的空洞现象,不是所有输入元素都会参与到后续的计算过程中。为了克服这一限制并实现多尺度特征提取,采用了多条并行的一维膨胀因果卷积网络,每条网络具有不同的膨胀率参数。如图3所示,经预处理的采样数据被分配至各个不同膨胀率的卷积网络中处理。此外,为了提升网络的泛化能力和缓解梯度消失问题,引入了残差连接机制。最终,通过整合各个膨胀卷积网络的输出,实现了对多时间尺度特征的有效融合。这种方法在提升模型性能方面展示了出色的潜力,特别是在处理具有复杂时间动态的数据集时。
图3 膨胀因果卷积网络
2.2 GRU网络
与长短时记忆网络(LSTM)相似,门控循环单元(GRU)也是循环神经网络(RNN)的一种变型。其设计采用了门控机制来调节信息流,主要目的是解决长期依赖及反向传播中的梯度问题。相较于LSTM,GRU在保持类似性能的同时,能够提供更高的计算效率。如图4展示的GRU结构中,包括两个关键的门:更新门(update gate)和重置门(reset gate)。这两个门的行为受当前输入和前一个时间步的隐藏状态共同影响,它们协同作用确定如何融合历史信息与当前信息。每一次迭代中,GRU通过这些门来控制信息的流通,使得每个单元能够根据需要选择性地处理输入信息。这种机制允许GRU单元在传递整条链结构的状态信息时具有选择性地更新或忽略信息。在数据输入至GRU单元时,其正向传播过程涉及信息的筛选,这是通过动态调整的门结构实现的,从而有效平衡了信息的长期保留与即时更新。此种设计不仅提高了模型对时间序列数据的处理能力,还增强了模型在面对不同类型记忆需求时的适应性。
图4 GRU神经网络结构
GRU网络的计算可以分为以下几个步骤:
(1)更新门的计算
式中,zt为更新门的输出;Wz为更新门的权重矩阵;ht-1为前一时间步的隐藏状态;xt为当前时间步的输入;σ为sigmoid激活函数。
(2)重置门的计算
式中,rt为重置门的输出;Wr为重置门的权重矩阵。
(3)候选隐藏状态的计算
式中,图片为候选隐藏状态;W为权重矩阵;⊙表示元素级别的乘法。
(4)最终隐藏状态的计算
式中,ht为当前时间步的隐藏状态;(1-zt)⊙ht-1表示保留前一时间步的信息;zt⊙图片表示更新到当前时间步的信息。
2.3 ECA注意力机制
为了有效建模特征通道间的相互依赖性,采用ECA(efficient channel attention)通道注意力机制。此方法通过学习过程自动识别各通道的重要性,并据此调节通道特征表达,增强关键通道的特征响应力,同时抑制不重要的通道。此策略较传统的SENet(squeeze-and-excitation networks)通道注意力机制采用一维卷积代替全连接层,实现了在保持功能效果的同时显著减少参数量。
如图5所示,ECA注意力的实现包括以下几个步骤:
图5 ECA通道注意力机制结构
(1)全局平均池化(global average pooling):首先,对输入的特征图每个通道执行全局平均池化,以提取每个通道的全局统计信息,实现特征压缩并突出全局特征。
(2)一维卷积(1D convolution):使用一个一维卷积层来学习通道间的相互依赖关系。其中一维卷积层的核大小根据通道的数量来自适应确定,以确保计算效率。
(3)激活函数:一维卷积后,一维卷积的输出通过激活函数(如sigmoid或tanh)处理,将权重缩放到[0, 1]区间内,反映每个通道的相对重要性。
(4)通道加权:最终,根据得到的权重对原始输入特征图的各通道进行加权操作,通过这种方式强化或削弱特定通道的表达。
2.4 所提的SOH估计模型架构
本文中的输入是以电池恒流充电过程的重采样信号。假设第k个循环周期的电池SOH为yk,对应的输入样本数据为Xk=[tk; ik; vk]。其中tk、ik、vk分别为128×1的时间序列。
膨胀卷积可以通过扩大感受野进而更加全面地提取特征,但在处理时序动态信息时不够灵活。GRU在时间轴上能较好地学习相邻时间序列数据之间的耦合关系,但在数据特征的挖掘和提取方面表现不佳。通过结合膨胀卷积的宽广视野和GRU的深度时间理解,可以增强模型对于各种不同序列任务的泛化能力,使其在面对不同类型的数据时能表现得更加稳健。采用通道注意力机制使模型能够聚焦关键特征,从而进一步提高模型的泛化能力。
本文设计了如图6所示的网络架构,包含3个并行的多尺度膨胀因果卷积神经网络,一个堆叠的GRU网络,一个ECA,最后通过一个全连接网络输出。具体训练过程如下:
图6 提出的MDCNN-GRU-ECA模型网络架构
第一步,数据采样和预处理。将电池的恒流充电采集数据,包括时间、电流、电压序列进行重采样,得到3个长度为128的1维向量,然后按特征归一化到[-1, 1]区间。预处理之后,将每个电池分别作为测试集,其他电池作为训练集。
第二步,模型设置和初始化。首先根据经验,将GRU的隐藏层数设为4,隐藏层维度设为32。学习率设置为10-3,批次大小设置为64,迭代次数设置为100。损失函数采用均方误差(mean-square error,MSE),优化算法采用Adam优化器。此外,根据后面的几组实验确定了最优的卷积核大小和膨胀率。
第三步,多尺度自动特征提取。将样本数据直接输入到并行的膨胀因果卷积神经网络中,提取时间序列数据的特征,然后通过相加来进行不同尺度的时间序列特征融合。再通过Relu非线性激活函数,将特征映射到高维空间。随后通过Dropout层使模型中的神经元以0.2的概率随机停止工作,防止模型过拟合,提高模型的泛化能力。
第四步,学习动态时序特性。通过GRU来捕捉时间序列数据的时间动态和依赖关系,然后通过残差连接来缓解深度学习的梯度消失问题。
第五步,通道自适应权重分配。将GRU层的信息传输到ECA注意力层,计算不同通道的权重,和加权映射。
第六步,输出结果。通过全连接层将多维数据转化为一维输出。
第七步,迭代训练更新。计算损失函数,并通过反向传播算法完成网络参数的更新。然后重复迭代,直到损失函数达到收敛或完成迭代次数。
第八步,模型评估。将测试数据输入到训练好的网络中,获得估计的SOH值,与真实值进行对比,通过不同的指标评价模型的性能。
2.5 模型迁移和微调
为进一步验证模型的泛化能力和迁移性,进行了跨数据集的模型迁移实验。具体为先在NASA数据集上训练模型,然后在CACLE数据集上进行微调并验证。微调的过程是为了适应数据集间的差异性,但不进行大规模的重新训练,以确保迁移学习的有效性。通过这种方法,评估模型在不同数据集上的表现,以测试其迁移学习能力。具体通过两种微调方式进行模型迁移:第一种微调方式(T1-MDGE)先冻结网络中顶端全连接层以外的其他参数,然后在CACLE数据集上利用部分电池数据完成20次训练迭代。第二种微调方式(T2-MDGE)与之类似,区别在于完成15次训练迭代后将网络底层中的所有参数解冻,剩下的5次训练迭代进行全网络的参数学习。
3 结果和讨论
在本节中,为了验证本文方法的有效性,将提出的MDGE模型在两个不同的数据集上进行了测试,并与已存在的两种常规模型——CNN和GRU进行了比较,这两种模型均来源于文献[26]中关于SOH估计任务的报道。同时,为了突出多尺度特征融合模型的优势,还增加了对应的单尺度模型进行了对比,即DGE(DCNN-GRU-ECA)。这些模型的输入数据和训练算法与MDGE模型相同。此外,为了进一步展示方法的先进性,还选取了针对相同数据集的最新SOH估计研究成果进行了误差的比较分析,并验证了基于该模型的跨数据集迁移学习策略。使用了两个评价指标:平均绝对误差(mean absolute error,MAE),均方误差(root mean square error,RMSE)。它们的计算方法如式(8)~(9):
3.1 NASA数据集SOH估计结果分析
膨胀率和卷积核尺寸是影响膨胀卷积神经网络性能的重要超参数。为了进一步探索这些超参数对预测性能的影响,本节使用NASA数据集进行了一系列实验,其中B06、B07、B18作为训练集,B05作为测试集。通过比较MDGE模型在不同膨胀率和卷积窗口长度下的计算精度[图7(a)],观察到最优的超参数配置是卷积核大小为3,膨胀率为4。实验结果表明,无论是膨胀率还是卷积核尺度的过度增大或减小均对计算精度有不利影响。如图7(b)所示,在膨胀率设定为4的条件下,3个并行部署的膨胀卷积神经网络(DCNN)模块对不同尺度的特征进行了提取。这些模块分别采用1、4及16作为其膨胀因子,使得它们能够针对序列信息在不同的时间尺度上进行捕获。具体来说,较小的膨胀因子使得网络能够细致地捕捉到短期特征,而较大的膨胀因子则使网络有能力从宽广的时间范围内提取出长期且较为粗糙的特征。通过整合多个不同尺度的膨胀卷积层,网络能够同时学习到多层次的时间序列特征。因此,恰当选择膨胀率和窗口长度不仅有助于保证感受野的适度扩展,以便捕获必要的上下文及局部特征信息,同时可以平衡模型的计算效率与过拟合风险,从而促进模型的整体性能及其泛化能力。后续将通过最优的超参数配置验证MDGE模型的性能。
图7 多尺度特征提取方法的超参数优化
图8比较了MDGE方法与其他方法在NASA数据集中的SOH估计效果。为了证明结果的一般性,图8(a)~(d)分别以B05、B06、B07、B18作为测试集,剩余的3块电池作为训练集。表1列出了各模型的评价指标。可以观察到,通过MDGE方法获得的SOH估计结果相对于其他3种方法更接近于真实的SOH。根据表1,MDGE的SOH估计误差最低,平均RMSE仅为0.0110,优于文献[31]中的0.0131和DGE方法的0.0160,其次是GRU模型的0.0212和CNN模型的0.0258。同时,MDGE方法的MAE指标也低于文献[31]和[30]。这表明,多时间尺度相比单一时间尺度的特征提取方式可以更全面地捕捉数据在不同尺度下的动态变化和模式,有助于理解不同时间跨度上的内在特性。此外,与传统的CNN和GRU模型相比,MDGE和DGE融合模型结合了CNN的高级特征提取能力和GRU的序列数据处理优势,同时利用通道注意力机制提升模型对关键特征的捕捉能力,能够实现更好的SOH估计效果。
图8 NASA数据集上不同方法的SOH估计结果比较