基于强化学习策略的大语言模型训练方法、装置和设备

被引:0
专利类型
发明
申请号
CN202511135156.5
申请日
2025-08-13
公开(公告)号
CN121031780A
公开(公告)日
2025-11-28
发明(设计)人
文祎琳 吕中厚 陈沐晗 包沉浮 王国秋 田伟娟 颜廷玉
申请人
北京百度网讯科技有限公司
申请人地址
100085 北京市海淀区上地十街10号百度大厦2层
IPC主分类号
G06N5/04
IPC分类号
G06N20/00
代理机构
北京品源专利代理有限公司 11332
代理人
黄立伟
法律状态
公开
国省代码
北京市 市辖区
引用
下载
收藏
共 50 条
[1]
大语言模型的强化学习训练方法、装置、设备及存储介质 [P]. 
赵鑫 ;
陈志朋 ;
张鸿志 ;
张富峥 .
中国专利 :CN120387495A ,2025-07-29
[2]
基于大语言模型的辅助分层强化学习训练方法及系统 [P]. 
庞豹 ;
李千溪 ;
王江 ;
宋勇 ;
傅洪泽 ;
许庆阳 ;
袁宪锋 ;
徐小龙 .
中国专利 :CN119514640B ,2025-10-28
[3]
基于大语言模型的辅助分层强化学习训练方法及系统 [P]. 
庞豹 ;
李千溪 ;
王江 ;
宋勇 ;
傅洪泽 ;
许庆阳 ;
袁宪锋 ;
徐小龙 .
中国专利 :CN119514640A ,2025-02-25
[4]
一种大语言模型的强化学习训练方法及装置 [P]. 
周璟 ;
应缜哲 ;
鲍孝慈 ;
陈华 ;
孟昌华 ;
王维强 .
中国专利 :CN121168564A ,2025-12-19
[5]
基于强化学习的行业大语言模型训练方法及装置 [P]. 
陈舟 ;
白玉琪 .
中国专利 :CN120278270A ,2025-07-08
[6]
基于大语言模型和强化学习的决策方法、装置及设备 [P]. 
徐泽来 ;
于超 ;
汪玉 ;
吴翼 .
中国专利 :CN118260681A ,2024-06-28
[7]
一种基于大语言模型的分类模型训练方法、装置和设备 [P]. 
王国秋 ;
吕中厚 ;
韩淼 ;
侯金昌 ;
胡博仁 ;
文祎琳 ;
田伟娟 ;
包沉浮 .
中国专利 :CN121092707A ,2025-12-09
[8]
大语言模型的训练方法、装置、设备和介质 [P]. 
丁思宇 ;
王硕寰 ;
赵晏彬 ;
孙宇 ;
田浩 ;
吴华 ;
王海峰 .
中国专利 :CN116821684B ,2024-10-11
[9]
一种大语言模型的强化学习训练方法及相关设备 [P]. 
霍亮宇 ;
杨青 .
中国专利 :CN119990303A ,2025-05-13
[10]
基于大语言模型的问答方法、模型的训练方法、设备 [P]. 
黄金凤 ;
吴甜 ;
姜文斌 ;
郝洋 ;
冯知凡 ;
崔骁鹏 ;
佘俏俏 .
中国专利 :CN117932008A ,2024-04-26