1.本发明涉及航天器追逃博弈制导技术领域,尤其是一种航天器追踪-逃逸-防御三方博弈的制导方法及系统。
背景技术:2.随着空间交会与抵近技术的发展,针对非合作目标的在轨接近试验也越来越多。在未来可能的空间对抗中,我国在轨航天器将面临被接近的威胁。2022年,我国在轨空间站曾受到星链卫星的接近威胁而两次机动变轨。当接近的两航天器均能自主决策和机动时,该问题便成为一个空间连续动态博弈对抗的问题。对于机动能力较强的航天器,面对接近威胁时可以根据二人博弈理论主动规避接近的物体,但是对于机动能力较弱的高价值空间目标,如长期执行着重大科学任务的空间站,此类方法的防御效率较低,离轨防御代价较大,影响了空间站的正常任务安排。未来更加具有潜力的方式是在其附近环绕飞行着低成本的护卫航天器,通过主动机动捕获逼近的空间物体,实现安全防护。因此解决此场景下追踪-逃逸-防御三方博弈制导技术对国家安全具有重大意义。
3.航天器追踪-逃逸-防御三方博弈是一个非常复杂的问题,在博弈中,追踪航天器旨在追上逃逸航天器(被保护的目标),逃逸器旨在躲避追踪器,而防御航天器旨在通过主动拦截追踪器来达到保护逃逸器的目的。由于防御器的存在,追踪器在接近目标的同时不得不规避防御器,而逃逸器和防御器之间也存在着潜在的合作。如何突破追踪-逃逸-防御三方博弈制导技术,需要进一步的研究。
技术实现要素:4.本发明提供一种航天器追踪-逃逸-防御三方博弈的制导方法及系统,用于克服现有技术中无法实现追踪-逃逸-防御三方博弈制导等缺陷。
5.为实现上述目的,本发明提出一种航天器追踪-逃逸-防御三方博弈的制导方法,包括以下步骤:利用微分对策方式构造航天器追踪-逃逸-防御三方博弈模型,并对所述三方博弈模型进行求解,得到协态方程和最优控制方程;根据所述三方博弈模型,得到状态量和协态量的关系式,根据状态量和协态量的关系式定义复合状态变量和复合协态变量,根据所述复合状态变量和复合协态变量将所述三方博弈模型以及协态方程、最优控制方程从分量形式的方程转化为矩阵形式的方程,得到高维复合状态模型;根据所述高维复合状态模型,进行航天器追踪-逃逸-防御三方博弈,得到三方博弈均衡策略。
6.为实现上述目的,本发明还提出一种航天器追踪-逃逸-防御三方博弈的制导系统,包括:模型构建模块,用于利用微分对策方式构造航天器追踪-逃逸-防御三方博弈模
型,并对所述三方博弈模型进行求解,得到协态方程和最优控制方程;模型转化模块,用于根据所述三方博弈模型,得到状态量和协态量的关系式,根据状态量和协态量的关系式定义复合状态变量和复合协态变量,根据所述复合状态变量和复合协态变量将所述三方博弈模型以及协态方程、最优控制方程从分量形式的方程转化为矩阵形式的方程,得到高维复合状态模型;博弈模块,用于根据所述高维复合状态模型,进行航天器追踪-逃逸-防御三方博弈,得到三方博弈均衡策略。
7.为实现上述目的,本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
8.为实现上述目的,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述方法的步骤。
9.与现有技术相比,本发明的有益效果有:本发明提供的航天器追踪-逃逸-防御三方博弈的制导方法采用微分对策方式构造求解航天器的追逃问题,求解得到的制导律在所用模型下指标是最优的,可实现逃逸航天器和防御航天器的合作制导,同时实现追踪航天器的在追踪目标的同时躲避防御航天器的拦截。此外,本发明的方法可拓展到防御航天器集群保护逃逸器情况下的三方博弈问题,即当防御航天器的数量不只一个时,同样可以按照本发明的方法得到相应的三方均最优的纳什均衡策略。
附图说明
10.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
11.图1为本发明提供的航天器追踪-逃逸-防御三方博弈的制导方法流程图;图2为2000s 单个防御航天器的三人博弈纳什均衡轨迹;图3为5000s 单个防御航天器的三人博弈纳什均衡轨迹;图4为2000s两个防御航天器的四人博弈纳什均衡轨迹。
12.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
13.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
14.另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
15.本发明提出一种航天器追踪-逃逸-防御三方博弈的制导方法,如图1所示,包括以
下步骤:101:利用微分对策方式构造航天器追踪-逃逸-防御三方博弈模型,并对三方博弈模型进行求解,得到协态方程和最优控制方程;102:根据所述三方博弈模型,得到状态量和协态量的关系式,根据状态量和协态量的关系式定义复合状态变量和复合协态变量,根据复合状态变量和复合协态变量将所述三方博弈模型以及协态方程、最优控制方程从分量形式的方程转化为矩阵形式的方程,得到高维复合状态模型;103:根据高维复合状态模型,进行航天器追踪-逃逸-防御三方博弈,得到三方博弈均衡策略。
16.在其中一个实施例中,对于步骤101,利用微分对策方式构造航天器追踪-逃逸-防御三方博弈模型,包括:以逃逸航天器、追踪航天器和防御航天器附近的一颗虚拟航天器作为参考航天器,建立lvlh(local vertical local horizontal)坐标系;根据所述lvlh坐标系,利用c-w方程,构建用于描述逃逸航天器、追踪航天器和防御航天器相对虚拟航天器运动的运动状态方程;综合考虑航天器间的距离指标和能量消耗指标,建立二次型指标函数。
17.在下一个实施例中,以逃逸航天器、追踪航天器和防御航天器附近的一颗虚拟航天器作为参考航天器,建立lvlh坐标系,包括:以逃逸航天器、追踪航天器和防御航天器附近的一颗虚拟航天器作为参考航天器,建立当地轨道坐标系;以坐标系的原点作为参考航天器的质心,轴沿参考航天器的径向,轴沿参考航天器轨道面的法向,轴沿参考航天器运动的轨迹切向,并与、轴构成右手坐标系。
18.在某个实施例中,根据lvlh坐标系,利用c-w方程,构建用于描述逃逸航天器、追踪航天器和防御航天器相对虚拟航天器运动的运动状态方程,包括:根据lvlh坐标系,利用c-w方程描述逃逸航天器、追踪航天器和防御航天器(统称为机动航天器)相对虚拟航天器的运动,(1)式中,、、分别为机动航天器在lvlh坐标系下的三个位置分量;、、分别为对应位置分量的一阶时间导数;、、为对应位置分量的二阶时间导数;为虚拟航天器做圆周运动的角速度;、、为机动航天器分别在径向、迹向和法向推力加速度分量;
令令,则运动方程(1)写为下面状态方程形式:(2)式中,、为运动状态方程的系数矩阵;为矢量的一阶时间导数;定义追踪航天器、逃逸航天器和防御航天器集群的相对运动状态分别为、、,下标p、e和d分别表示追踪航天器、逃逸航天器和防御航天器,i = 1, 2,
ꢀ…
, n表示防御航天器集群中每个防御航天器的编号,n为防御航天器的个数,且均满足式(1);令,为追踪航天器相对逃逸航天器的状态变量,,为防御航天器i相对追踪航天器的状态变量,令、,,分别为对应航天器的推力加速度矢量,运动状态方程表示为:(3)式中,变量上方的点号表示对应变量的一阶时间导数。
19.在另一个实施例中,综合考虑航天器间的距离指标和能量消耗指标,建立二次型指标函数,包括:综合考虑航天器间的距离指标和能量消耗指标,建立二次型指标函数,
(4)式中,为终端时刻tf追踪航天器相对逃逸航天器的状态;是距离的权重矩阵;为终端时刻tf防御航天器i相对逃逸航天器的状态;、、分别为追踪航天器、逃逸航天器、防御航天器i在时刻t的推力加速度矢量;、、分别为追踪航天器、逃逸航天器、防御航天器i的能量消耗权重矩阵;分别为追踪航天器、逃逸航天器、防御航天器i的最优机动策略。该式表示,追踪航天器在最小化拦截距离的同时,尽量最小化己方的能量消耗,增大逃逸航天器和防御航天器的能量消耗;逃逸航天器在最大化拦截距离的同时,尽量最小化己方和防御航天器的能量消耗,增大追踪航天器的能量消耗。
20.在下一个实施例中,对三方博弈模型进行求解,得到协态方程和最优控制方程,包括:根据三方博弈模型,构造微分对策的哈密顿(hamilton)函数和末值函数;根据哈密顿函数和末值函数,对所述三方博弈模型进行求解,得到协态方程和最优控制方程。
21.在某个实施例中,根据三方博弈模型,构造微分对策的哈密顿函数和末值函数:(5)(6)式中,为逃逸航天器的6维的协态向量;为防御航天器i的6维的协态向量。
22.在下一个实施例中,协态方程为:(7)
式中,为的一阶时间导数,为的一阶时间导数;协态变量的终端边界条件为:(8)(9)式中,为逃逸航天器在终端时刻的协态向量;为防御航天器i在终端时刻的协态向量;追踪航天器、逃逸航天器、防御航天器三方的最优控制方程,即为微分对策的鞍点,鞍点,就是泛函的极值点(除掉最大值点及最小值点),当微分对策的hamilton函数为追逃双方控制量的连续可导函数,鞍点表达为:(10)将公式(5)代入公式(10),得到最优控制方程为:(11)。
23.在下一个实施例中,对于步骤102,根据所述三方博弈模型,得到状态量和协态量的关系式,根据状态量和协态量的关系式定义复合状态变量和复合协态变量,根据所述复合状态变量和复合协态变量将所述三方博弈模型以及协态方程、最优控制方程从分量形式的方程转化为矩阵形式的方程,得到高维复合状态模型,包括:根据三方博弈模型,将式(7)~(11)代入式(3),得到状态量和协态量的关系式:
(12);定义复合状态变量和复合协态变量,则公式(12)转化为:(13)式中,系数矩阵,,,;式(8)和式(9)可改写为:
(16)根据公式(13),复合状态变量和复合协态变量的状态转移式为:(17)式中,为复合状态转移矩阵。式(17)可拆解为:(18)将式(16)代入(18),得:(19)即可得到复合协态变量和复合状态变量的线性关系:(20)将式(20)代入(13)的系数矩阵中,得到高维复合状态模型,(14)式中,为复合黎卡提矩阵,终端时刻的值满足:。
24.在另一个实施例中,对于步骤103,根据高维复合状态模型,进行航天器追踪-逃逸-防御三方博弈,得到三方博弈均衡策略,包括:根据所述高维复合状态模型,进行航天器追踪-逃逸-防御三方博弈,得到三方博弈均衡策略为:弈均衡策略为:
ꢀꢀꢀ
(15)式中,,,为常值矩阵。
25.该三方博弈均衡策略满足以下定义式:
因此,通过本发明的方法可实现三个航天器各自的最优。
26.本发明还提出一种航天器追踪-逃逸-防御三方博弈的制导系统,包括:模型构建模块,用于利用微分对策方式构造航天器追踪-逃逸-防御三方博弈模型,并对所述三方博弈模型进行求解,得到协态方程和最优控制方程;模型转化模块,用于根据所述三方博弈模型,得到状态量和协态量的关系式,根据状态量和协态量的关系式定义复合状态变量和复合协态变量,根据所述复合状态变量和复合协态变量将所述三方博弈模型以及协态方程、最优控制方程从分量形式的方程转化为矩阵形式的方程,得到高维复合状态模型;博弈模块,用于根据所述高维复合状态模型,进行航天器追踪-逃逸-防御三方博弈,得到三方博弈均衡策略。
27.本发明还提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述所述方法的步骤。
28.本发明还提出一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述方法的步骤。
29.实施例1:防御航天器的个数为1本实施例提供一种航天器追踪-逃逸-防御三方博弈制导方法,包括:s1,利用微分对策方式构造航天器追踪-逃逸-防御三方博弈模型,并对所述三方博弈模型进行求解,得到协态方程和最优控制方程;s101,基于c-w方程构造微分对策的hamilton函数,1)建立lvlh(local vertical local horizontal)坐标系,构造基于c-w方程的运动状态方程;以三个航天器附近的一颗虚拟航天器作为参考航天器建立当地轨道坐标系,该坐标系的原点位于参考航天器的质心,轴沿参考航天器的径向,轴沿参考航天器轨道面的法向,轴沿参考航天器运动的轨迹切向,并与、轴构成右手坐标系;使用下式(1)所示的c-w方程描述逃逸航天器、追踪航天器和防御航天器相对虚拟航天器的运动:(1)
式中,为虚拟航天器做圆周运动的角速度,、、为航天器分别在径向、迹向和法向推力加速度分量。
30.将式(1)写成状态空间的表达式(2)式中,、为状态方程的系数矩阵,。
31.设追踪航天器、逃逸航天器和防御航天器集群的相对运动状态分别为、、,,下标p、e和d分别表示追踪航天器、逃逸航天器和防御航天器,且均满足式(1)给出的c-w方程;令为追踪航天器相对逃逸航天器的状态变量,为防御航天器相对追踪航天器的状态变量,令、,分别为对应航天器的推力加速度矢量,运动状态方程表示为:(3)2)构造微分对策的hamilton函数;综合考虑航天器间的距离指标和能量消耗指标,建立如下二次型指标函数:(4)式中,为终端时刻tf追踪航天器相对逃逸航天器的状态;是距离的权重矩阵;为终端时刻tf防御航天器i相对逃逸航天器的状态;、、分别为追踪航天器、逃逸航天器、防御航天器i在时刻t的推力加速度矢量;、、分别为追踪航天器、逃逸航天器、防御航天器i的能量消耗权重矩阵;分别为追踪航天器、逃逸航天器、防御航天器i的最优机动策略。
32.根据运动状态方程(3)和指标函数(4)构造微分对策的哈密顿(hamilton)函数和末值函数:(5)(6)式中为逃逸航天器的6维的协态向量;为6维的防御航天器的协态向量。
33.s102,求解微分对策的协态方程和最优控制方程;1)求解微分对策的协态方程;协态方程可以写为:(7)协态变量的终端边界条件由横截条件提供:(8)(9)2)求解微分对策的最优控制方程;三方的最优控制方程即为该微分对策的鞍点,所谓鞍点,就是泛函的极值点(除掉最大值点及最小值点),当微分对策的hamilton函数为追逃双方控制量的连续可导函数,鞍点可用公式表达为:(10)将公式(5)代入公式(10),得最优控制方程如下:
(11)s2,定义复合状态变量和复合协态变量,根据所述复合状态变量和复合协态变量对所述三方博弈模型以及协态方程、最优控制方程进行转化,得到高维复合状态模型。
34.s201,建立复合状态变量和协态变量;将式(7)~(11)代入式(3),可得状态量和协态量的关系式: (12)定义复合状态变量和复合协态变量,则式(12)可改写为式(13)的形式 (13)式中,系数矩阵的值为,,,式(8)和式(9)可改写为
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16)s202,推导高维复合黎卡提方程;根据公式(13),可得复合状态变量和复合协态变量的状态转移式为
ꢀꢀꢀꢀ
(17)其中,为复合状态转移矩阵。式(17)可拆解为
ꢀꢀꢀꢀꢀ
(18)将式(16)代入(18),得:(19)即可得到复合协态变量和复合状态变量的线性关系:(20)将(16)式代入到(18)式中,可得高维复合黎卡提方程:(14)式中,为复合黎卡提矩阵,其终端时刻的值满足。
35.s3,根据高维复合状态模型,进行航天器追踪-逃逸-防御三方博弈,得到三方博弈均衡策略。
36.通过求解常微分方程(14),可以得到复合黎卡提矩阵的值,可得到三方博弈均衡策略:弈均衡策略:弈均衡策略:式中,,,为常值矩阵。
37.输入航天器的初始相对状态和指标函数中的系数矩阵:博弈中追踪航天器和逃逸航天器的初始状态为= [-6 km,
ꢀ‑
16 km, 4 km,
ꢀ‑
9 m/s, 13.6 m/s, 0 m/s]和 = [0 km, 0 km, 0 km, 0 m/s, 0 m/s, 0 m/s],单个防御航天器的相对状态为= [-1 km, 3 km, 0 km, 0 m/s, 0 m/s, 0 m/s],指标函数中的权重系数配置为:, , ,。
[0038]
按照上述控制方法,可得到博弈的结果。
[0039]
当博弈时间为2000s时,博弈的纳什均衡轨迹如图2所示,到博弈时间结束时,防御航天器和追踪航天器的距离很近,逃逸航天器距离较远,此次博弈的结果是对逃逸器和防御器这一方面有利的,对追踪器不利的;当博弈时间为5000s时,博弈的纳什均衡轨迹如图3所示,说明博弈时间不同,三个航天器的最优轨迹是不同的,本发明所提方法可以成功求解航天器在不同时间下的最优轨迹。
[0040]
实施例2:防御航天器的个数为2
本实施例提供一种航天器追踪-逃逸-防御三方博弈制导方法,包括:s1,利用微分对策方式构造航天器追踪-逃逸-防御三方博弈模型,并对三方博弈模型进行求解,得到协态方程和最优控制方程;s101,基于c-w方程构造微分对策的hamilton函数,1)建立lvlh(local vertical local horizontal)坐标系,构造基于c-w方程的运动状态方程;以三个航天器附近的一颗虚拟航天器作为参考航天器建立当地轨道坐标系,该坐标系的原点位于参考航天器的质心,轴沿参考航天器的径向,轴沿参考航天器轨道面的法向,轴沿参考航天器运动的轨迹切向,并与、轴构成右手坐标系;使用下式(1)所示的c-w方程描述逃逸航天器、追踪航天器和防御航天器相对虚拟航天器的运动:(1)式中,为虚拟航天器做圆周运动的角速度,、、为航天器分别在径向、迹向和法向推力加速度分量。将式(1)写成状态空间的表达式(2)式中,、为状态方程的系数矩阵,。
[0041]
设追踪航天器、逃逸航天器和防御航天器集群的相对运动状态分别为、、,,下标p、e、d1和d2分别表示追踪航天器、逃逸航天器、防御航天器1和防御航天器2,且均满足式(1)给出的c-w方程;令为追踪航天器相对逃逸航天器的状态变量,为防御航天器1相对追踪航天器的状态变量,为防御航天器2相对追踪航天器的状态变量,令、,,分别为对应航天器的推力加速度矢量,运动状态方程表示为:
(3)2)构造微分对策的hamilton函数;综合考虑航天器间的距离指标和能量消耗指标,建立如下二次型指标函数:(4)式中,是距离的权重矩阵,、、、分别为追踪航天器、逃逸航天器、防御航天器1和防御航天器2的能量消耗权重矩阵,分别为最优的追踪策略、逃逸策略、防御策略。
[0042]
根据状态方程(3)和指标函数(4)构造微分对策的哈密顿(hamilton)函数和末值函数:(5)(6)式中为逃逸航天器的6维的协态向量;和分别为防御航天器1和防御航天器2的协态向量。
[0043]
s102,求解微分对策的协态方程和最优控制方程;1)求解微分对策的协态方程;协态方程可以写为:
(7)协态变量的终端边界条件由横截条件提供:(8)(9)2)求解微分对策的最优控制方程;三方的最优控制方程即为该微分对策的鞍点,所谓鞍点,就是泛函的极值点(除掉最大值点及最小值点),当微分对策的hamilton函数为追逃双方控制量的连续可导函数,鞍点可用公式表达为:(10)将公式(5)代入公式(10),得最优控制方程如下:
(11)s2,转化初始模型为高维复合状态模型;s201,建立复合状态变量和协态变量;将式(7)~(11)代入式(3),可得状态量和协态量的关系式: (12)定义复合状态变量和复合协态变量,则上式可改写为式(13)的形式
ꢀꢀꢀꢀ
(13)式中,系数矩阵的值为,,,
式(8)和式(9)可改写为
ꢀꢀꢀꢀ
(16)s202,推导高维复合黎卡提方程;根据公式(13),可得复合状态变量和复合协态变量的状态转移式为
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)其中,为复合状态转移矩阵。式(17)可拆解为 (18)将式(16)代入(18),得(19)即可得到复合协态变量和复合状态变量的线性关系:(20)将式(20)代入(13)的系数矩阵中,可得高维复合黎卡提方程:(14)式中,为复合黎卡提矩阵,其终端时刻的值满足s3,求解高维复合黎卡提方程,得到三方博弈的均衡解;通过求解常微分方程(14),可以得到复合黎卡提矩阵的值,得到三方博弈均衡策略:
式中,,,,为常值矩阵。
[0044]
输入航天器的初始相对状态和指标函数中的系数矩阵:博弈中追踪航天器和逃逸航天器的初始状态为= [-6 km,
ꢀ‑
16 km, 4 km,
ꢀ‑
9 m/s, 13.6 m/s, 0 m/s]和= [0 km, 0 km, 0 km, 0 m/s, 0 m/s, 0 m/s],单个防御航天器的相对状态为= [-1 km, 3 km, 0 km, 0 m/s, 0 m/s, 0 m/s], = [1 km, 3 km, 0 km, 0 m/s, 0 m/s, 0 m/s]。指标函数中的权重系数配置为:, , , ,。
[0045]
按照上述控制方法,可得到博弈的结果:当博弈时间为2000s时,博弈的纳什均衡轨迹如图4所示,说明本发明的方法可以成功求解多个防御器存在情况的各个航天器的最优轨迹。
[0046]
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。