IEEE Trans. Ind. Informat. Vol. 21, No. 8, August 2025

基于强化学习的综合能源系统
结构、容量与运行交互式集成设计框架

Hui Zhang, Lizhi Zhang, Haozeng Bie, Zhiwei Xu, Guangyao Fan, Bin Jia, Bo Sun*
山东大学 控制科学与工程学院 | 山东警察学院
IIDF
Interactive Integrated Design Framework
DOI: 10.1109/TII.2025.3556037

核心痛点:为什么 MES 设计这么难?

综合能源系统 (MES) 的设计不仅仅是决定“买多大的设备”(容量),更难的是决定“买什么设备”以及“设备间如何连接”(结构)。

  • 传统方法缺陷: 往往预先固定好层级结构(例如:燃气轮机必须连锅炉),导致错失了更灵活、更节能的非典型连接方案。
  • 组合爆炸: 如果让计算机自由组合设备,搜索空间是 $2^n \times n!$,计算量也是天文数字。

IIDF 的解决方案

将物理问题转化为“AI 画图”问题。

1. 上层 (RL):
AI 智能体负责“搭积木”,生成系统拓扑。
2. 下层 (Opt):
数学求解器负责“算账”,评估这个拓扑能不能省钱。

双层交互设计框架

RL Agent 与 数学规划求解器的闭环博弈

Level 1

结构搜索层

智能体 (Agent): 基于 RNN 的策略网络 $\pi_\theta(A|S)$。
动作 (Action): 生成一个结构序列 $\alpha$。
$\alpha = [PGU, HP, \text{Link}_{AB}, ...]$
策略更新: 使用带基线的策略梯度算法 (Policy Gradient with Baseline) 来减少方差。
结构 $\alpha$
奖励 $R$
Level 2

容量-运行协同优化层

任务: 给定结构 $\alpha$,求解最优容量 $\beta^*$ 和运行策略 $\gamma^*$。
技术难点: 储能约束是非线性的。
Big-M 法: 引入大数 M,将非线性约束转化为混合整数线性规划 (MILP),从而可以用 CPLEX 快速求解。
当前成本: --

核心创新:领域知识如何“裁剪”搜索空间?

如果不加限制,AI 会尝试很多无效组合(比如把光伏板装在地下室,或者让冷水机给锅炉供热)。 论文引入了两类领域知识来约束搜索空间 $\mathbb{N}$:

  • 1

    多能供需平衡法则

    将设备划分为“供电”、“供热”、“供冷”等子空间。强制要求每个能量流层级至少选一个设备,避免系统瘫痪。

  • 2

    热力学第二定律(能质匹配)

    规定了连接的物理优先级。例如,高品位能源(电)可以梯级转化为低品位(热),但反之受限。这在搜索空间中表现为设备连接顺序的约束。

消融实验:有无领域知识的收敛速度对比

数据来源:论文 Fig. 8 (Case 2)

实验结果:全方位碾压

场景 (Scenario) 对比方法 年化总成本 (CNY) 计算耗时 (s) 核心优势
Case 2: 居民区
复杂负荷, 含光伏
IIDF (Ours) WINNER 4,787,500 324.07 成本最低,速度比 GA 快 3 倍
TID (传统遗传算法) 4,814,300 1,041.74 结构搜索受限
TID-S (固定结构) 5,515,800 - 成本高出 ~15%
Case 3: 工业园 IIDF (Ours) 5,276,200 329.50 相比 TID 减少 76% 计算时间