Skip to content

Paper Reading: Addressing the Class Imbalance Problem in NIDS

文献信息

属性内容
序号1
标题Addressing the class imbalance problem in network intrusion detection systems using data resampling and deep learning
作者Ahmed Abdelkhalek et al.
年份2023
期刊The Journal of Supercomputing, Springer
DOI10.1007/s11227-023-05073-x

1. 研究背景与问题

1.1 问题陈述

网络入侵检测系统 (NIDS) 是检测恶意攻击的重要工具。然而,现实网络流量数据存在严重的类别不平衡 (Class Imbalance) 问题:

  • 正常流量样本远多于攻击流量
  • 某些罕见攻击类型样本极少
  • 传统深度学习模型在不平衡数据上表现不佳,倾向于将少数类误分类为多数类

1.2 研究动机

基准入侵检测数据集(如 CICIDS2017、CICIDS2018)模拟真实网络流量,包含:

  • 大量的正常流量样本
  • 相对较少的攻击样本
  • 这导致训练数据不平衡,给 NIDS 带来挑战

2. 研究方法

2.1 核心技术方案

论文提出结合数据重采样技术深度学习的方案:

ADASYN (Adaptive Synthetic Sampling)

  • 自适应合成少数类样本
  • 根据少数类样本的分布困难度自动调整合成数量
  • 聚焦于难以学习的少数类样本
  • 清洗噪声和边界样本
  • 移除多数类中靠近少数类边界的样本
  • 帮助改善分类边界

2.2 深度学习模型

结合多种深度学习架构:

┌─────────────────────────────────────────────────────────┐
│                    深度学习模型组合                        │
├─────────────────────────────────────────────────────────┤
│  CNN (卷积神经网络)      → 空间特征提取                   │
│  LSTM/BiLSTM         → 时序依赖建模                      │
│  MLP (多层感知机)      → 最终分类                         │
└─────────────────────────────────────────────────────────┘

2.3 数据集

  • CICIDS2017 数据集
  • 包含正常流量和多种攻击类型(DoS、Probe、R2L、U2R 等)

3. 主要贡献

  1. 系统性地研究类别不平衡问题对 NIDS 性能的影响
  2. 提出 ADASYN + Tomek Links 组合的数据重采样方法
  3. 将数据级方法与深度学习结合,提升少数类攻击的检测率
  4. 在基准数据集上验证方法有效性

4. 实验结果

4.1 性能提升

指标改善效果
少数类检测率显著提升
整体准确率改善
F1-Score提升

4.2 对比基线

方法描述
原始数据 (不平衡)baseline 性能
ADASYN提升少数类 recall
Tomek Links清理噪声样本
ADASYN + Tomek Links综合效果最佳

5. 关键洞察

5.1 类别不平衡的处理策略

类别不平衡解决方案
├── 数据级方法
│   ├── 过采样 (Oversampling)
│   │   ├── SMOTE
│   │   ├── ADASYN ✓ (本文)
│   │   └── Borderline-SMOTE
│   └── 欠采样 (Undersampling)
│       └── Tomek Links ✓ (本文)

└── 算法级方法
    ├── 类别权重调整
    ├── 代价敏感学习
    └── 集成方法

5.2 深度学习与重采样的协同

  • 深度学习自动提取特征
  • 重采样解决数据分布问题
  • 两者结合比单独使用效果更好

6. 相关工作比较

方法优点局限性
传统 ML (SVM, RF)可解释性好特征工程依赖
深度学习端到端特征学习对不平衡敏感
本文方法解决不平衡+深度特征计算开销增加

7. 应用场景

  • 企业网络安全监控
  • 数据中心入侵检测
  • 5G/IoT 网络安全
  • 云环境安全

8. 未来方向

  1. 探索更多重采样技术组合
  2. 在线/增量学习场景
  3. 实时检测系统部署
  4. 多分类不平衡问题

9. 结论

论文有效地解决了 NIDS 中的类别不平衡问题,通过结合 ADASYN 自适应过采样和 Tomek Links 欠采样技术,显著提升了深度学习模型对少数类攻击的检测能力。


10. 核心词汇

术语解释
Class Imbalance类别不平衡
ADASYN自适应合成采样
Tomek Links清洗边界的欠采样方法
NIDSNetwork Intrusion Detection System
Deep Learning深度学习
Oversampling过采样
Undersampling欠采样

阅读时间: 2026-04-17整理: Claude Code

基于 VitePress 构建