一种基于扩散的双生成回放的持续离线强化学习方法

被引:0
专利类型
发明
申请号
CN202311656001.7
申请日
2023-12-04
公开(公告)号
CN117634647A
公开(公告)日
2024-03-01
发明(设计)人
王志 刘金梅 李文斌 魏婧雯 陈春林 王博 李华雄 辛博 朱张青
申请人
南京大学
申请人地址
210093 江苏省南京市鼓楼区汉口路22号
IPC主分类号
G06N20/00
IPC分类号
G06F18/214
代理机构
南京天翼专利代理有限责任公司 32112
代理人
奚铭
法律状态
公开
国省代码
江苏省 南京市
引用
下载
收藏
共 50 条
[1]
一种基于扩散模型的离线强化学习方法 [P]. 
谭俊波 ;
何龙祥 ;
郭冠求 ;
王学谦 ;
梁斌 .
中国专利 :CN117669689A ,2024-03-08
[2]
一种基于行为动作生成的离线强化学习方法 [P]. 
张永爱 ;
李海峰 ;
吴朝兴 ;
周雄图 ;
郭太良 .
中国专利 :CN119514639A ,2025-02-25
[3]
一种基于条件扩散模型的安全离线强化学习方法 [P]. 
王丽芳 ;
李沛聪 ;
王晋光 ;
秦品乐 ;
柴锐 ;
于一 .
中国专利 :CN120317317A ,2025-07-15
[4]
一种基于逆扩散引导策略的离线强化学习方法 [P]. 
王雪松 ;
张佳志 ;
程玉虎 ;
李会军 ;
赵忠祥 .
中国专利 :CN117952186B ,2024-07-12
[5]
一种基于逆扩散引导策略的离线强化学习方法 [P]. 
王雪松 ;
张佳志 ;
程玉虎 ;
李会军 ;
赵忠祥 .
中国专利 :CN117952186A ,2024-04-30
[6]
一种基于扩散状态规划的决策Transformer离线强化学习方法 [P]. 
王雪松 ;
张恒瑞 ;
程玉虎 ;
万红 .
中国专利 :CN120181138B ,2025-08-12
[7]
一种基于扩散状态规划的决策Transformer离线强化学习方法 [P]. 
王雪松 ;
张恒瑞 ;
程玉虎 ;
万红 .
中国专利 :CN120181138A ,2025-06-20
[8]
一种基于分数模型的离线强化学习方法 [P]. 
李秀 ;
刘泽源 ;
方智睿 ;
吕加飞 .
中国专利 :CN120087446A ,2025-06-03
[9]
基于高效分层扩散离线强化学习的博弈对抗策略生成方法 [P]. 
彭浩 ;
曾祥华 ;
解勤思 ;
杨梦茹 ;
王一鸣 ;
吴冠霖 ;
李昂生 .
中国专利 :CN120597984A ,2025-09-05
[10]
基于分数的扩散模型生成回放的类增量学习方法 [P]. 
莫建文 ;
左丽芳 ;
欧阳宁 ;
林乐平 .
中国专利 :CN117407808A ,2024-01-16