一、理论基础
1、名词解释
(1)、模型预测控制MPC
MPC的核心在于它能够在每个控制周期内,通过优化算法预测系统在未来一段时间内的行为,并根据这个预测来确定当前的控制动作。这个过程是重复进行的,因此MPC是一种闭环控制方法。 MPC是一种先进的控制策略,它基于当前系统的状态和一个数学模型预测未来的行为。在每个采样时刻,MPC计算出在未来一段有限时间内的最优输入序列(即控制动作),这个序列将使得目标函数(例如成本函数)最小化,同时保证系统动态满足一系列的约束条件。然后,实际应用的是这个最优序列的第一个控制输入,而在下一个采样时刻,控制器会重新计算一个新的优化序列,从而形成了一种滚动优化的过程。
-MPC工作流程:
-系统建模:首先,需要为被控系统建立一个动态模型。这个模型应该能够准确地描述系统的动态行为,包括状态转移和控制输入对状态的影响。
-预测:使用当前的系统状态和控制输入,通过模型预测系统未来的状态。这通常涉及到求解模型的动态方程,得到未来一段时间内的状态轨迹。
-优化:定义一个优化问题,目标是在预测时域内优化某个性能指标(如总成本、总能耗等)。优化问题的约束条件可能包括系统状态约束、控制输入约束等。
-求解:使用优化算法求解这个有限时间的最优控制问题,得到最优控制序列。
-应用:将最优控制序列的第一个控制动作应用于系统。
-反馈校正:在下一个时刻,测量系统的实际状态,并更新内部模型。然后,重复上述步骤,进行新一轮的预测、优化和控制。
-(2)、 DRO分布式鲁棒优化
分布鲁棒优化(Distributionally Robust Optimization, DRO): DRO是一种应对不确定性优化问题的方法,其核心是设计一种优化方案,使之在一组可能的概率分布(即ambiguity set)中对最坏情况下的性能有所保证。这意味着即使真实的概率分布未知或者只能通过有限数据得到近似,DRO仍然能够提供具有稳健性的决策结果。
-(3)、DRMPC
分布鲁棒模型预测控制(Distributionally Robust Model Predictive Control, DRMPC)
- DRMPC则是将DRO的思想融入到MPC框架内,针对非线性系统,在存在不确定性的情况下进行优化。在这种方法中,不仅考虑了系统模型的不确定性,还为系统中的随机变量引入了概率约束。DRMPC的目标是在面对不确定性时找到一个更为稳健的最优控制策略,即使模型与真实系统行为之间存在失配,也能确保系统在一定概率水平下满足所有约束条件并优化长期性能。通过这种方式,DRMPC旨在改进传统MPC在处理不确定性时可能出现的次优性问题,增强控制系统在复杂和变化环境中的适应能力和安全性。
-1.模型描述与不确定性设定:
-首先,建立一个反映系统动态特性的数学模型,并识别出其中的不确定性来源。
-使用 Wasserstein 距离或其他度量方式来定义一个不确定性集,该集围绕着经验分布或者基于有限样本数据估计的“参考”分布形成一个半径为 γ 的球体。
-2.优化问题形式化:
-设定一个滚动优化窗口,在每个采样时刻 k,考虑未来的 T 步时间步长内的控制序列和状态预测。
-目标函数通常是期望性能指标的最小化或在最坏情况下最大化,同时满足概率约束条件。
-概率约束通常表示为分布鲁棒型约束,例如条件风险价值(Conditional Value-at-Risk, CVaR)或其它能够表达对不确定性容忍程度的统计指标。
-3.鲁棒优化问题求解:
-优化问题被表述为在不确定性集合中找到一组控制器输入变量,使得无论实际的概率分布如何(只要落在所定义的不确定性集合内),都能保证某些性能指标不超过某个阈值。
-这需要解决一个带有双重优化结构的问题,即在外层优化中寻找最坏情况下的分布,而在内层优化中计算给定分布下的最优控制输入。
-4.实施与滚动更新:
-实际应用时,仅执行优化得到的当前最优控制动作,然后根据新的系统状态信息和不确定性估计,在下一个采样时刻重新进行优化过程。
-5.Lagrange乘数法与对偶理论:
-为了有效地求解这个复杂的分布鲁棒优化问题,经常利用拉格朗日乘数法将原问题转化为对偶问题,并结合强对偶性原理和范数理论进行转换和简化。
-(4)、实际案例描述
例子:假设我们正在设计一个智能能源管理系统,用于优化一座风力发电厂的运行策略。系统的目标是在保证电网稳定性和满足供电需求的前提下,尽可能提高风能利用效率并减少化石能源的补充使用。
-传统模型预测控制(MPC)应用: 在传统的MPC框架下,我们会基于当前和预测的风速、电力需求以及其他相关参数建立风电系统的动态模型。每个时间步长内,MPC计算最优的风机转速或功率调节序列以最小化某种成本函数(比如化石燃料消耗与未充分利用风能的成本之和)。然而,由于风速具有较强的随机性和不确定性,实际风速可能偏离预测值,导致MPC制定的策略在实际执行时效果未必最佳。
-分布鲁棒模型预测控制(DRMPC)应用: 而在DRMPC中,我们将考虑未来风速的概率分布集合而非单一预测值。例如,我们可以构造一个基于历史数据的Wasserstein不确定性集来包含所有可能的风速分布。然后,在求解优化问题时,DRMPC会在这个不确定性集中寻找最坏情况下的风速分布,并据此确定一组稳健的风机控制策略,使得即使在最不利的风速条件下,也能确保电网稳定性、满足供需平衡,并最大程度地降低额外成本。
-因此,相比于传统MPC,DRMPC更注重在不确定性环境中的稳健性,能够在有限的数据支持下提供一种概率意义上的性能保证,从而提升整个风力发电系统的运营效率和可靠性。
-Rl+mpc例子工业过程控制优化 在某些工业自动化场景中,例如化工生产、电力系统或机器人运动控制,传统的MPC能够基于精确的物理模型对系统未来状态进行预测,并据此计算出满足约束条件的最佳控制序列。然而,实际系统的动态特性可能受到诸多不确定因素的影响,导致模型存在误差。在这种情况下,可以将RL引入到MPC框架中。比如,通过设计一个参数化的MPC控制器,其中包含一些可调整的参数(如模型中的增益矩阵、预测时域长度等)。然后,RL算法可以在闭环运行中实时学习这些参数,以最小化某种性能指标(如控制误差、能耗或其他成本函数),从而提高整体控制效果。
-二、理论基础
1、安全强化学习
1.非线性离散随机动力系统:
$$
s_{k+1}=f(s_k,a_k,w_k)
$$
-
-假设1:扰动集W做出凸性和闭合性的假设(凸性保证了优化问题的局部解就是全局解。)
-
-假设目的:将DRO重新表述为有限凸规划
-2.最优安全策略
-
-我们要找到一个策略 𝜋∗,它在平均意义上(考虑到所有可能的初始状态)最小化了从初始状态开始的预期累积回报(价值函数),输出状态s遵循状态分布的平均值。
-3.价值函数
-
-(3a)价值函数Vπ是一个映射,它把状态空间X映射到实数R,关联于策略π。它定义了从初始状态s0出发,遵循策略π时的期望回报。(从开始到结束,优化问题,优化参数)
-(3b) 动力学约束
-(3c) 条件概率约束(安全约束)
-4.安全集合
-
-对应任意状态s映射到函数h(s)的函数值需要小于0,引入安全集合后3c可以转换成
-
-Sk是任意状态
-
-假设2:每个函数−hj是固有的、凸的和下半连续的函数。(有点取值有限,局部最小为全局最小,无跳转)
-
-2.SMPC理论推导过程
1.参数向量化策略,改写(2),Z找到最优参数向量,构成最优策略
-
-2.一个基于参数化模型预测控制(MPC)的优化问题,目标是找到一组最优输入序列a和状态序列s来最小化期望成本,并同时满足系统动态、概率约束以及初始状态条件。问题(3)转换:
-
-约束条件:
-
-
-求解第k步的优化问题,优化变量a和s,
-通过求解这个优化问题,我们得到一个最优的控制序列 a,它将指导系统在考虑未来 I 个时间点的预测状态和成本的同时,从当前状态 sk 开始,最小化期望的总成本,同时满足所有约束条件。在实际应用中,这个优化问题通常在每个时间步 k 都会重新求解,以反映最新的状态信息和环境变化,这被称为滚动地平线优化或再调度。
-
-3.参数化策略πθ在时间实例k处的定义如下
-
-
-整个决策过程包含的一系列参数化决策
-
-4.机会约束转换
- VaRα定义如下
-
-
-VaR实际上代表了发生概率至少为 α的最坏损失。
-
-
-非凸转换成凸求解
-
-当α趋于1时,CVaR与VaR之间的差距趋于零
-
-转换后优化问题
-
-求解cvara:
-
-考虑Ns种场景描述,其中第m次场景表达
-
-
-引入辅助变量求解Cvara
-
-5.SMPC最终表达式
-
-
-
-
-三、目标函数构建
1.目标函数定义
目标函数旨在最小化智能电动汽车充电站(Electric Vehicle Charging Station, EVCS)的运营成本,同时确保满足电动汽车(Electric Vehicle, EV)用户的充电需求,并考虑到电力购买/销售价格、光伏(Photovoltaic, PV)发电输出和未来EV充电需求的不确定性。
-