基于反思的语言模型强化学习训练扩展方法及装置

被引:0
专利类型
发明
申请号
CN202510144398.4
申请日
2025-02-10
公开(公告)号
CN120146142A
公开(公告)日
2025-06-13
发明(设计)人
东昱晓 侯振宇
申请人
清华大学
申请人地址
100084 北京市海淀区清华园1号
IPC主分类号
G06N3/092
IPC分类号
G06N3/045 G06N3/0475 G06N5/04 G06N20/00
代理机构
北京清亦华知识产权代理事务所(普通合伙) 11201
代理人
黄德海
法律状态
实质审查的生效
国省代码
北京市 市辖区
引用
下载
收藏
共 50 条
[1]
基于强化学习训练语言模型的方法及装置 [P]. 
李佳晖 ;
张翰林 ;
张凤达 ;
张泰维 ;
况琨 ;
陈隆 ;
周俊 ;
薛思乔 .
中国专利 :CN119558428A ,2025-03-04
[2]
基于大语言模型和强化学习的决策方法、装置及设备 [P]. 
徐泽来 ;
于超 ;
汪玉 ;
吴翼 .
中国专利 :CN118260681A ,2024-06-28
[3]
基于强化学习的行业大语言模型训练方法及装置 [P]. 
陈舟 ;
白玉琪 .
中国专利 :CN120278270A ,2025-07-08
[4]
基于大语言模型与强化学习的状态表征方法及装置 [P]. 
季向阳 ;
王博源 ;
曲云 ;
蒋雨航 ;
邵键准 ;
刘畅 ;
杨文明 .
中国专利 :CN118504612A ,2024-08-16
[5]
基于大语言模型的辅助分层强化学习训练方法及系统 [P]. 
庞豹 ;
李千溪 ;
王江 ;
宋勇 ;
傅洪泽 ;
许庆阳 ;
袁宪锋 ;
徐小龙 .
中国专利 :CN119514640A ,2025-02-25
[6]
基于大语言模型的辅助分层强化学习训练方法及系统 [P]. 
庞豹 ;
李千溪 ;
王江 ;
宋勇 ;
傅洪泽 ;
许庆阳 ;
袁宪锋 ;
徐小龙 .
中国专利 :CN119514640B ,2025-10-28
[7]
基于强化学习策略的大语言模型训练方法、装置和设备 [P]. 
文祎琳 ;
吕中厚 ;
陈沐晗 ;
包沉浮 ;
王国秋 ;
田伟娟 ;
颜廷玉 .
中国专利 :CN121031780A ,2025-11-28
[8]
大语言模型的强化学习训练方法、装置、设备及存储介质 [P]. 
赵鑫 ;
陈志朋 ;
张鸿志 ;
张富峥 .
中国专利 :CN120387495A ,2025-07-29
[9]
一种大语言模型的强化学习训练方法及装置 [P]. 
周璟 ;
应缜哲 ;
鲍孝慈 ;
陈华 ;
孟昌华 ;
王维强 .
中国专利 :CN121168564A ,2025-12-19
[10]
基于大语言模型增强的可解释强化学习决策系统及方法 [P]. 
曾云秀 ;
黄鹤松 ;
曾俊杰 ;
石超 ;
秦龙 ;
柴娴 ;
罗宇湘 ;
李智能 ;
何胜 .
中国专利 :CN120722758A ,2025-09-30