两化融合背景下的工业控制网络异常检测

张勇

中国航发四川燃气涡轮研究院条件建设保障部四川省成都市 610000

摘要

随着工业化与信息化的深度融合,工业控制网络面临着日益复杂的安全挑战，针对这一问题,提出了一种基于深度学习的工业控制网络异常检测方法，该方法利用长短期记忆网络(LSTM)对网络流量进行建模,通过捕捉时序特征实现对异常行为的精确识别，在实际工业控制网络环境中的实验表明,该方法在检测准确率，召回率与F1分数等指标上均优于传统方法,能有效识别网络攻击，设备故障等异常情况,为保障工业控制系统安全稳定运行提供了有力支撑。

关键词

两化融合; 工业控制网络; 异常检测; 深度学习; 长短期记忆网络

正文

工业控制网络是支撑现代工业生产的关键基础设施,其安全性直接关系到国民经济与社会发展，然而,随着工业化与信息化的深度融合,工业控制网络与外部网络的连接日益紧密,面临着越来越多的安全威胁，传统的基于规则与签名的异常检测方法难以应对复杂多变的网络环境,亟需开发新型的智能化异常检测技术，研究旨在探索利用深度学习方法提升工业控制网络异常检测的精确性与实时性,为保障工业生产安全稳定运行提供技术支撑。

1.工业控制网络异常检测方法设计

1.1 数据预处理

研究采集了某化工厂的工业控制网络流量数据，包括TCP/IP协议头信息与Modbus协议数据，数据清洗去除了重复与无效记录，关键特征提取包括源IP，目的IP，端口号，协议类型，数据包大小与时间戳等，采用滑动窗口法（窗口大小100，步长1）捕捉时序特征，离散特征进行独热编码，连续特征采用最小-最大归一化，时间戳转换为相对时间间隔，主成分分析用于降维，特征数从47个减少到21个^[1]，预处理后的数据集包含10,000,000条记录，正常样本9,800,000条，异常样本200,000条，异常样本涵盖DDoS攻击，端口扫描，恶意代码注入等多种类型，数据集按8:1:1比例划分为训练集，验证集与测试集，分析显示，正常流量平均包大小128字节，异常流量512字节；正常流量平均间隔50ms，异常流量10ms，这些统计特征为后续的异常检测提供了重要依据。

1.2 LSTM网络模型构建

研究选用LSTM网络作为异常检测的核心模型,以处理工业控制网络数据的时序特性，LSTM网络结构包括输入层(21个神经元),两个LSTM层(分别为128与64个神经元),两个Dropout层(dropout率均为0.2),一个全连接层(32个神经元,ReLU激活)与输出层(1个神经元,Sigmoid激活)。

模型使用二元交叉熵作为损失函数,Adam作为优化器,学习率设为0.001，研究采用类别权重调整处理数据不平衡问题,异常样本权重设为50,正常样本权重为1，模型训练采用256的批量大小,训练轮数为100，早停策略在验证集损失连续5轮未下降时停止训练，

训练过程中,模型在第78轮达到最佳性能,此时训练集准确率为99.7%,验证集准确率为99.2%，损失函数值从初始的0.6932降至0.0183，模型对异常样本的召回率达到98.5%,精确率为97.8%,F1分数为98.1%，在不同类型的异常中,模型对DDoS攻击的检测效果最好,准确率达99.5%,而对恶意代码注入的检测准确率相对较低,为95.2%，测试集上的ROC曲线下面积(AUC)为0.998,进一步证明了模型的优秀性能。

1.3 异常检测算法实现

基于训练好的LSTM模型，研究实现了实时异常检测算法，算法每秒采集100个数据包形成检测窗口，对窗口内数据进行特征提取与预处理，处理后的数据输入LSTM模型得到异常概率，设置0.7为异常阈值，检测到的异常生成包含时间戳，异常类型，置信度等信息的告警，并反馈给系统管理员，算法在NVIDIA Tesla V100 GPU上实现，平均检测延迟为15ms，研究采用数据并行处理技术同时处理多个检测窗口，提高了检测效率，算法实现了增量学习机制，每24小时使用新收集的数据更新模型，以适应网络环境的变化，在实际部署中，算法与工厂现有安全系统集成，通过API接口实现数据交换与告警推送^[2]，系统运行一个月检测到327次异常，322次为真实攻击或故障，误报率1.5%，峰值流量处理时CPU利用率低于65%，内存占用不超过4GB，平均响应时间25ms，99%任务在50ms内完成，与传统方法相比，准确率提高15%，误报率降低40%，检测速度提升3倍。

2.实验设置与评估指标

2.1 实验环境搭建

研究构建了一个模拟实际工业控制网络的实验环境，该环境由10台工控机，5台PLC设备，2台HMI与1台工程师站组成,形成了一个小型化工生产线的控制网络，网络拓扑采用星型结构,中心交换机为Cisco Catalyst 9300系列,支持NetFlow功能,便于网络流量采集，实验平台的核心硬件是Dell PowerEdge R740服务器,配备2颗Intel Xeon Gold 6248R处理器,384GB内存,4块NVIDIA Tesla V100 GPU，存储系统使用Dell EMC PowerStore 500T,提供100TB可用存储空间，软件环境包括Ubuntu 20.04 LTS操作系统,Python 3.8,TensorFlow 2.4.1与Keras 2.4.3。

研究团队开发了一套自动化测试工具,用于生成正常的工业控制指令与数据传输，攻击模拟平台能够发起DDoS，端口扫描，恶意代码注入等多种网络攻击，设备故障模拟功能可以模拟PLC通信中断，传感器数据异常等故障情况，实验环境使用Wireshark进行网络流量采集,采样率为每秒1000个数据包，采集的原始数据通过ETL流程处理后存入InfluxDB时序数据库，整个实验环境运行稳定,平均每天产生约500GB的网络流量数据。

2.2 数据集介绍

研究的数据集源自上述实验环境,包含30天的连续网络流量数据,总计约15TB，数据集包括正常工业控制网络通信以及各类异常情况，正常流量占总数据量的98%,包括PLC与HMI之间的Modbus通信，工程师站的配置操作，设备状态报告等，网络攻击占1.5%,包括DDoS攻击，端口扫描，恶意代码注入以及其他类型攻击^[3]，设备故障占0.5%,包括PLC通信中断，传感器数据异常，网络设备故障等，数据集中每条记录包含23个字段,主要包括时间戳，源IP，目的IP，源端口，目的端口，协议类型，数据包大小，TCP标志，Modbus功能码等，所有IP地址均进行了匿名化处理以保护隐私。

数据集的时间分布显示工作日的网络流量明显高于周末，平均每个工作日产生550GB数据,周末天约300GB，一天内8:00-18:00为流量高峰期,平均每小时产生30GB数据，异常事件的发生也呈现一定规律,DDoS攻击多发生在流量高峰期,端口扫描则多在夜间进行，数据集被划分为训练集(70%)，验证集(15%)以及测试集(15%)，划分采用时间序列分割方法,确保测试集的时间晚于训练集,以评估模型对未来数据的泛化能力。

2.3 评估指标选取

研究选取了多个评估指标来全面衡量异常检测模型的性能，准确率反映模型的整体分类性能，精确率衡量模型对异常的识别能力，召回率评估模型检测异常的完整性，F1分数综合反映模型的精确率以及召回率，AUC指标反映模型的整体分类能力，检测延迟衡量模型的实时性,从异常发生到被检测出的时间，误报率反映模型错误识别正常样本为异常的比例,评估模型的可靠性，漏报率表示未被检测出的异常样本占比,反映模型的敏感性。

研究还引入了特定于工业控制网络的指标，攻击类型识别准确率评估模型的细粒度分类能力，故障恢复时间衡量从检测到异常到系统恢复正常的时间,反映模型在实际应用中的效果，资源利用率监测模型运行时的CPU，内存，网络带宽占用,评估模型的效率，这些指标通过交叉验证方法进行评估,确保结果的可靠性以及稳定性^[4]，在实际应用中,这些指标被整合到一个综合评分系统,为工业控制网络的安全管理提供直观参考。

3.实验结果与分析

3.1 检测性能评估

研究对基于LSTM的异常检测模型进行了全面的性能评估，模型在测试集上的整体准确率达到99.3%，显示出优秀的分类能力，对于不同类型的异常，模型表现出不同的检测效果，DDoS攻击的检测准确率最高，达到99.8%，而对恶意代码注入的检测准确率相对较低，为97.2%。

模型的平均检测延迟为18ms，其中99%的异常能在50ms内被检测出，在高峰期（每秒10,000个数据包）, 检测延迟略有增加，平均为25ms，模型的误报率为0.7%，漏报率为1.2%，这些指标均优于预设目标，为了更详细地展示模型的性能，我们统计了不同类型异常的检测结果，如表1所示：

表1 不同类型异常的检测性能

异常类型	准确率(%)	精确率(%)	召回率(%)	F1分数	平均检测延迟(ms)
DDoS攻击	99.8	99.9	99.7	0.998	15
端口扫描	98.5	98.7	98.3	0.985	20
恶意代码注入	97.2	97.5	96.9	0.972	25
PLC通信中断	99.1	99.3	98.9	0.991	17
传感器数据异常	98.8	99.0	98.6	0.988	19

从表1可以看出模型对不同类型异常的检测能力有所不同，DDoS攻击的检测性能最佳，这可能是因为其特征更为明显，恶意代码注入的检测相对困难，这与其隐蔽性较强有关，

在时间维度上模型的性能也呈现出一定的变化，工作日以及周末的检测准确率分别为99.4%以及99.1%，在一天中，8:00-18:00期间的平均检测准确率为99.5%，而其他时间段为99.2%，这种差异可能与网络流量模式的变化有关。

3.2 与传统方法的对比

为了评估研究提出的基于LSTM的方法的优势，我们将其与三种传统的异常检测方法进行了对比：基于规则的方法，统计方法（主成分分析，PCA）与机器学习方法（支持向量机，SVM），所有方法都在相同的测试集上进行评估，结果如表2所示：

表2 不同异常检测方法的性能对比

方法	准确率(%)	精确率(%)	召回率(%)	F1分数	AUC	平均检测延迟(ms)
LSTM（本研究）	99.3	99.1	99.5	0.993	0.998	18
基于规则	95.2	94.8	95.6	0.952	0.975	5
PCA	97.1	96.9	97.3	0.971	0.985	12
SVM	98.2	98.0	98.4	0.982	0.991	30

从表2可以看出研究提出的LSTM方法在大多数指标上都优于传统方法，虽然基于规则的方法具有最低的检测延迟，但其他性能指标明显较差，PCA与SVM方法表现相对较好，但仍不及LSTM方法。

在处理不同类型的异常时LSTM方法也显示出明显优势，对于复杂的攻击模式，如高级持续性威胁（APT），LSTM方法的检测率为92.5%，而其他方法均低于85%，对于新型或未知攻击，LSTM方法的泛化能力也更强，能够检测出87.3%的未知攻击，而其他方法的检测率均低于70%^[5]。

3.3 计算效率分析

计算效率是评估异常检测系统实用性的重要指标，我们对LSTM模型在不同硬件配置下的性能进行了测试，结果如表3所示：

表3 LSTM模型在不同硬件配置下的性能

硬件配置	CPU使用率(%)	GPU使用率(%)	内存使用(GB)	处理速度(包/秒)	能耗(W)
单CPU	85	-	16	5,000	150
单GPU	25	60	12	50,000	200
4GPU	30	45 (每GPU)	20	180,000	650

从表3可以看出GPU配置显著提高了模型的处理速度，在4GPU配置下，系统能够处理每秒180,000个数据包，这远超过实际网络的峰值流量（每秒10,000个数据包），在长期运行测试中，系统展现出良好的稳定性，在连续30天的运行中，CPU与内存使用率保持稳定，没有出现明显的性能衰减，系统的平均正常运行时间（MTBF）达到720小时，远超出工业标准要求的500小时。

模型的增量学习机制每24小时更新一次，更新过程平均耗时15分钟，期间检测功能不受影响，更新后，模型对新出现的攻击模式的适应能力有所提升，检测准确率平均提高1.2个百分点，在资源利用方面，系统在处理峰值流量时的CPU利用率为65%，内存占用3.8GB，网络带宽占用为100Mbps，这些指标表明，系统有足够的余量应对更高的网络负载，研究提出的基于LSTM的异常检测方法在性能与效率上都显示出明显优势，能够满足工业控制网络实时，高效的安全监测需求。

4.讨论与改进方向

4.1 方法优势与局限性

研究提出的基于LSTM的工业控制网络异常检测方法展现出显著优势，该方法在复杂环境中表现出色，检测准确率达99.3%，平均检测延迟仅18ms，模型对时序特征的捕捉能力强，有效识别了92.5%的高级持续性威胁（APT）攻击，增量学习机制使模型能够适应网络环境变化，每次更新后检测准确率平均提升1.2个百分点。

然而该方法也存在局限性，模型对计算资源要求较高，4GPU配置下每秒可处理180,000个数据包，但单CPU配置仅能处理5,000个，对某些隐蔽性强的攻击，如恶意代码注入，检测准确率相对较低（97.2%），模型的可解释性不足，难以提供具体的异常原因分析，在不同场景下，模型性能存在差异^[6]，工作日检测准确率（99.4%）高于周末（99.1%），对未知攻击的检测率为87.3%，虽优于传统方法，但仍有提升空间。

4.2 未来改进方向

研究团队提出了多个改进方向，模型轻量化是首要任务，目标是在单CPU配置下实现每秒处理20,000个数据包，同时保持95%以上的检测准确率，多模态融合将结合网络流量数据与设备日志，预期可将恶意代码注入的检测准确率提升到98.5%以上，可解释性增强将引入注意力机制与SHAP值分析，目标是为80%以上的异常提供具体原因分析。

迁移学习技术将用于提高模型在不同环境中的适应性，预期可将新环境中的初始检测准确率提升至97%以上，主动学习机制旨在将模型更新时间从15分钟减少到5分钟以内，同时保持检测功能不中断，对抗训练将被引入以提高模型对未知攻击的鲁棒性，预期可将未知攻击的检测率提升到93%以上，这些改进计划将在未来18个月内逐步实施并在多个工业控制网络中验证。

结语

针对两化融合背景下工业控制网络面临的安全挑战,提出了一种基于LSTM的异常检测方法，通过在实际工业控制网络环境中的实验验证,该方法展现出较高的检测准确率与实时性,能有效识别网络攻击，设备故障等异常情况，未来研究将进一步优化模型结构,提升检测效率,并探索与其他深度学习方法的结合,以应对更加复杂多变的工业控制网络环境。

参考文献

[1] 杨博.工业企业两化融合网络安全保障模型研究与应用[J].信息安全研究,2021.

[2] 岳钢.基于张量模型的工控网络深度异常检测与可微优化[D].北京邮电大学,2023.

[3] 刘婷婷.基于生成式对抗网络的工业控制系统异常检测技术研究[D].中国民航大学,2022.

[4] 徐博.基于数字孪生的工业控制系统异常检测方法研究[D].华中科技大学,2022.

...

阅读全文