一种基于多目标强化学习的策略生成方法及装置

被引：0

专利类型：

发明

申请号：

CN202411191254.6

申请日：

2024-08-28

公开(公告)号：

CN119398190A

公开(公告)日：

2025-02-07

发明(设计)人：

牟倪栾垚贾庆山

申请人：

清华大学

申请人地址：

100084 北京市海淀区清华园

IPC主分类号：

G06N20/00

IPC分类号：

G06N7/01

代理机构：

北京三友知识产权代理有限公司 11127

代理人：

贾磊;刘飞

法律状态：

公开

国省代码：

北京市市辖区

引用

下载

收藏

法律状态

法律状态公告日	法律状态	法律状态信息
2025-02-07	公开	公开
2025-02-25	实质审查的生效	实质审查的生效IPC(主分类):G06N 20/00申请日:20240828
2025-11-18	授权	授权

共 50 条

[1]

一种基于多目标强化学习的策略生成方法及装置 [P].

牟倪 ;

栾垚 ;

贾庆山 .

中国专利 :CN119398190B ,2025-11-18

[2]

基于多目标强化学习的策略信息生成方法及装置 [P].

宋辞 ;

李雪蓉 ;

乔红 .

中国专利 :CN117829251A ,2024-04-05

[3]

基于强化学习的多目标优化方法及系统 [P].

祝豪瑜 ;

尹本顺 ;

陈智勇 ;

宋利 .

中国专利 :CN113947018A ,2022-01-18

[4]

一种基于多目标强化学习的多样仿真场景实时生成方法 [P].

王子祺 ;

刘佳琳 .

中国专利 :CN118862618A ,2024-10-29

[5]

一种基于深度强化学习的城市多目标协同优化方法及系统 [P].

吴志 ;

王浩霖 ;

顾伟 ;

周苏洋 ;

刘余欣 .

中国专利 :CN121145608A ,2025-12-16

[6]

基于多目标强化学习的自适应拥塞控制方法、设备及介质 [P].

杨贻宏 .

中国专利 :CN120750853A ,2025-10-03

[7]

一种同策略多目标强化学习框架的设计方法、装置及设备 [P].

冯大为 ;

巩旭东 ;

翟远钊 ;

张迅晖 ;

许可乐 ;

丁博 ;

王怀民 .

中国专利 :CN119578238A ,2025-03-07

[8]

一种同策略多目标强化学习框架的设计方法、装置及设备 [P].

冯大为 ;

巩旭东 ;

翟远钊 ;

张迅晖 ;

许可乐 ;

丁博 ;

王怀民 .

中国专利 :CN119578238B ,2025-11-25

[9]

一种基于强化学习的雷达抗干扰策略生成方法 [P].

樊伟伟 ;

赵月桢 ;

雷澳飞 ;

周峰 ;

徐栗 .

中国专利 :CN120314886B ,2025-10-03

[10]

一种基于强化学习的雷达抗干扰策略生成方法 [P].

樊伟伟 ;

赵月桢 ;

雷澳飞 ;

周峰 ;

徐栗 .

中国专利 :CN120314886A ,2025-07-15

← 1 2 3 4 5 →