基于强化学习训练语言模型的方法及装置

被引:0
专利类型
发明
申请号
CN202411614311.7
申请日
2024-11-12
公开(公告)号
CN119558428A
公开(公告)日
2025-03-04
发明(设计)人
李佳晖 张翰林 张凤达 张泰维 况琨 陈隆 周俊 薛思乔
申请人
支付宝(杭州)信息技术有限公司
申请人地址
310000 浙江省杭州市西湖区西溪路543号-569号(单号连续)1幢2号楼5层518室
IPC主分类号
G06N20/00
IPC分类号
G06F40/205
代理机构
北京亿腾知识产权代理事务所(普通合伙) 11309
代理人
陈霁;周良玉
法律状态
公开
国省代码
浙江省 杭州市
引用
下载
收藏
共 50 条
[1]
基于反思的语言模型强化学习训练扩展方法及装置 [P]. 
东昱晓 ;
侯振宇 .
中国专利 :CN120146142A ,2025-06-13
[2]
基于强化学习的行业大语言模型训练方法及装置 [P]. 
陈舟 ;
白玉琪 .
中国专利 :CN120278270A ,2025-07-08
[3]
一种大语言模型的强化学习训练方法及装置 [P]. 
周璟 ;
应缜哲 ;
鲍孝慈 ;
陈华 ;
孟昌华 ;
王维强 .
中国专利 :CN121168564A ,2025-12-19
[4]
基于大语言模型的辅助分层强化学习训练方法及系统 [P]. 
庞豹 ;
李千溪 ;
王江 ;
宋勇 ;
傅洪泽 ;
许庆阳 ;
袁宪锋 ;
徐小龙 .
中国专利 :CN119514640A ,2025-02-25
[5]
基于大语言模型的辅助分层强化学习训练方法及系统 [P]. 
庞豹 ;
李千溪 ;
王江 ;
宋勇 ;
傅洪泽 ;
许庆阳 ;
袁宪锋 ;
徐小龙 .
中国专利 :CN119514640B ,2025-10-28
[6]
基于强化学习策略的大语言模型训练方法、装置和设备 [P]. 
文祎琳 ;
吕中厚 ;
陈沐晗 ;
包沉浮 ;
王国秋 ;
田伟娟 ;
颜廷玉 .
中国专利 :CN121031780A ,2025-11-28
[7]
用于大语言模型的强化学习的方法和装置 [P]. 
阎栋 ;
李佳莲 .
中国专利 :CN117808120A ,2024-04-02
[8]
大语言模型的强化学习训练方法、装置、设备及存储介质 [P]. 
赵鑫 ;
陈志朋 ;
张鸿志 ;
张富峥 .
中国专利 :CN120387495A ,2025-07-29
[9]
一种基于强化学习的语言模型预训练方法及系统 [P]. 
李烈英 ;
张敏杰 .
中国专利 :CN120764621A ,2025-10-10
[10]
一种大语言模型的强化学习训练方法及相关设备 [P]. 
霍亮宇 ;
杨青 .
中国专利 :CN119990303A ,2025-05-13