学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于反思的语言模型强化学习训练扩展方法及装置
被引:0
专利类型
:
发明
申请号
:
CN202510144398.4
申请日
:
2025-02-10
公开(公告)号
:
CN120146142A
公开(公告)日
:
2025-06-13
发明(设计)人
:
东昱晓
侯振宇
申请人
:
清华大学
申请人地址
:
100084 北京市海淀区清华园1号
IPC主分类号
:
G06N3/092
IPC分类号
:
G06N3/045
G06N3/0475
G06N5/04
G06N20/00
代理机构
:
北京清亦华知识产权代理事务所(普通合伙) 11201
代理人
:
黄德海
法律状态
:
实质审查的生效
国省代码
:
北京市 市辖区
引用
下载
收藏
法律状态
法律状态公告日
法律状态
法律状态信息
2025-07-01
实质审查的生效
实质审查的生效IPC(主分类):G06N 3/092申请日:20250210
2025-06-13
公开
公开
共 50 条
[1]
基于强化学习训练语言模型的方法及装置
[P].
李佳晖
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)信息技术有限公司
支付宝(杭州)信息技术有限公司
李佳晖
;
张翰林
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)信息技术有限公司
支付宝(杭州)信息技术有限公司
张翰林
;
张凤达
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)信息技术有限公司
支付宝(杭州)信息技术有限公司
张凤达
;
张泰维
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)信息技术有限公司
支付宝(杭州)信息技术有限公司
张泰维
;
况琨
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)信息技术有限公司
支付宝(杭州)信息技术有限公司
况琨
;
陈隆
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)信息技术有限公司
支付宝(杭州)信息技术有限公司
陈隆
;
周俊
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)信息技术有限公司
支付宝(杭州)信息技术有限公司
周俊
;
薛思乔
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)信息技术有限公司
支付宝(杭州)信息技术有限公司
薛思乔
.
中国专利
:CN119558428A
,2025-03-04
[2]
基于大语言模型和强化学习的决策方法、装置及设备
[P].
徐泽来
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学
清华大学
徐泽来
;
论文数:
引用数:
h-index:
机构:
于超
;
论文数:
引用数:
h-index:
机构:
汪玉
;
论文数:
引用数:
h-index:
机构:
吴翼
.
中国专利
:CN118260681A
,2024-06-28
[3]
基于强化学习的行业大语言模型训练方法及装置
[P].
论文数:
引用数:
h-index:
机构:
陈舟
;
论文数:
引用数:
h-index:
机构:
白玉琪
.
中国专利
:CN120278270A
,2025-07-08
[4]
基于大语言模型与强化学习的状态表征方法及装置
[P].
论文数:
引用数:
h-index:
机构:
季向阳
;
王博源
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学
清华大学
王博源
;
曲云
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学
清华大学
曲云
;
蒋雨航
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学
清华大学
蒋雨航
;
邵键准
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学
清华大学
邵键准
;
论文数:
引用数:
h-index:
机构:
刘畅
;
论文数:
引用数:
h-index:
机构:
杨文明
.
中国专利
:CN118504612A
,2024-08-16
[5]
基于大语言模型的辅助分层强化学习训练方法及系统
[P].
论文数:
引用数:
h-index:
机构:
庞豹
;
李千溪
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
山东大学
李千溪
;
论文数:
引用数:
h-index:
机构:
王江
;
论文数:
引用数:
h-index:
机构:
宋勇
;
傅洪泽
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
山东大学
傅洪泽
;
论文数:
引用数:
h-index:
机构:
许庆阳
;
论文数:
引用数:
h-index:
机构:
袁宪锋
;
论文数:
引用数:
h-index:
机构:
徐小龙
.
中国专利
:CN119514640A
,2025-02-25
[6]
基于大语言模型的辅助分层强化学习训练方法及系统
[P].
论文数:
引用数:
h-index:
机构:
庞豹
;
李千溪
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
山东大学
李千溪
;
论文数:
引用数:
h-index:
机构:
王江
;
论文数:
引用数:
h-index:
机构:
宋勇
;
傅洪泽
论文数:
0
引用数:
0
h-index:
0
机构:
山东大学
山东大学
傅洪泽
;
论文数:
引用数:
h-index:
机构:
许庆阳
;
论文数:
引用数:
h-index:
机构:
袁宪锋
;
论文数:
引用数:
h-index:
机构:
徐小龙
.
中国专利
:CN119514640B
,2025-10-28
[7]
基于强化学习策略的大语言模型训练方法、装置和设备
[P].
文祎琳
论文数:
0
引用数:
0
h-index:
0
机构:
北京百度网讯科技有限公司
北京百度网讯科技有限公司
文祎琳
;
吕中厚
论文数:
0
引用数:
0
h-index:
0
机构:
北京百度网讯科技有限公司
北京百度网讯科技有限公司
吕中厚
;
陈沐晗
论文数:
0
引用数:
0
h-index:
0
机构:
北京百度网讯科技有限公司
北京百度网讯科技有限公司
陈沐晗
;
包沉浮
论文数:
0
引用数:
0
h-index:
0
机构:
北京百度网讯科技有限公司
北京百度网讯科技有限公司
包沉浮
;
王国秋
论文数:
0
引用数:
0
h-index:
0
机构:
北京百度网讯科技有限公司
北京百度网讯科技有限公司
王国秋
;
田伟娟
论文数:
0
引用数:
0
h-index:
0
机构:
北京百度网讯科技有限公司
北京百度网讯科技有限公司
田伟娟
;
颜廷玉
论文数:
0
引用数:
0
h-index:
0
机构:
北京百度网讯科技有限公司
北京百度网讯科技有限公司
颜廷玉
.
中国专利
:CN121031780A
,2025-11-28
[8]
大语言模型的强化学习训练方法、装置、设备及存储介质
[P].
赵鑫
论文数:
0
引用数:
0
h-index:
0
机构:
北京达佳互联信息技术有限公司
北京达佳互联信息技术有限公司
赵鑫
;
陈志朋
论文数:
0
引用数:
0
h-index:
0
机构:
北京达佳互联信息技术有限公司
北京达佳互联信息技术有限公司
陈志朋
;
张鸿志
论文数:
0
引用数:
0
h-index:
0
机构:
北京达佳互联信息技术有限公司
北京达佳互联信息技术有限公司
张鸿志
;
张富峥
论文数:
0
引用数:
0
h-index:
0
机构:
北京达佳互联信息技术有限公司
北京达佳互联信息技术有限公司
张富峥
.
中国专利
:CN120387495A
,2025-07-29
[9]
一种大语言模型的强化学习训练方法及装置
[P].
周璟
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)数字服务技术有限公司
支付宝(杭州)数字服务技术有限公司
周璟
;
应缜哲
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)数字服务技术有限公司
支付宝(杭州)数字服务技术有限公司
应缜哲
;
鲍孝慈
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)数字服务技术有限公司
支付宝(杭州)数字服务技术有限公司
鲍孝慈
;
陈华
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)数字服务技术有限公司
支付宝(杭州)数字服务技术有限公司
陈华
;
孟昌华
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)数字服务技术有限公司
支付宝(杭州)数字服务技术有限公司
孟昌华
;
王维强
论文数:
0
引用数:
0
h-index:
0
机构:
支付宝(杭州)数字服务技术有限公司
支付宝(杭州)数字服务技术有限公司
王维强
.
中国专利
:CN121168564A
,2025-12-19
[10]
基于大语言模型增强的可解释强化学习决策系统及方法
[P].
论文数:
引用数:
h-index:
机构:
曾云秀
;
论文数:
引用数:
h-index:
机构:
黄鹤松
;
论文数:
引用数:
h-index:
机构:
曾俊杰
;
石超
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军国防科技大学
中国人民解放军国防科技大学
石超
;
论文数:
引用数:
h-index:
机构:
秦龙
;
柴娴
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军国防科技大学
中国人民解放军国防科技大学
柴娴
;
罗宇湘
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军国防科技大学
中国人民解放军国防科技大学
罗宇湘
;
李智能
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军国防科技大学
中国人民解放军国防科技大学
李智能
;
何胜
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军国防科技大学
中国人民解放军国防科技大学
何胜
.
中国专利
:CN120722758A
,2025-09-30
←
1
2
3
4
5
→