一种基于动态约束强化学习的大模型安全对齐方法

被引:0
专利类型
发明
申请号
CN202411688975.8
申请日
2024-11-25
公开(公告)号
CN119539057A
公开(公告)日
2025-02-28
发明(设计)人
孟繁宇 白志欣 王砚铭 霍静 王博岩 杨希 高阳
申请人
中国移动通信有限公司研究院 中国移动通信集团有限公司 中国移动通信集团江苏有限公司 南京大学
申请人地址
100053 北京市西城区宣武门西大街32号
IPC主分类号
G06N5/022
IPC分类号
G06N5/04 G06N20/00 G06N3/048 G06N3/092 G06N3/084 G06N3/0455
代理机构
北京银龙知识产权代理有限公司 11243
代理人
汤明明
法律状态
公开
国省代码
江苏省 南京市
引用
下载
收藏
共 50 条
[1]
一种大语言模型的安全对齐方法及装置 [P]. 
王岱鑫 ;
陈岑 ;
周广浩 .
中国专利 :CN120910391A ,2025-11-07
[2]
一种针对大语言模型的安全对齐测试方法及系统 [P]. 
刘小垒 ;
刘成 ;
李星煜 ;
张峰 ;
丁康一 ;
辛邦洲 .
中国专利 :CN120670557A ,2025-09-19
[3]
基于强化学习的大语言模型安全保护防御方法和装置 [P]. 
何柯阳 ;
韩蒙 ;
孔德章 ;
林昶廷 ;
邢文鹏 ;
许海涛 ;
谢珍真 ;
马治国 .
中国专利 :CN120974512A ,2025-11-18
[4]
一种基于大语言模型和强化学习的文本去毒方法 [P]. 
李翔 ;
余婧 ;
赵艺博 ;
朱嘉鹏 ;
张召 ;
邵文明 ;
庞博 .
中国专利 :CN120671681A ,2025-09-19
[5]
用于大语言模型的强化学习的方法和装置 [P]. 
阎栋 ;
李佳莲 .
中国专利 :CN117808120A ,2024-04-02
[6]
一种基于多轮红队攻击的大模型安全对齐方法及装置 [P]. 
李晶 ;
郭葳杨 ;
张民 .
中国专利 :CN120146199B ,2025-07-18
[7]
一种基于多轮红队攻击的大模型安全对齐方法及装置 [P]. 
李晶 ;
郭葳杨 ;
张民 .
中国专利 :CN120146199A ,2025-06-13
[8]
安全强化学习驱动的大语言模型安全决策智能体 [P]. 
邓岳 ;
高宁 ;
李洪珏 .
中国专利 :CN120688552B ,2025-12-12
[9]
安全强化学习驱动的大语言模型安全决策智能体 [P]. 
邓岳 ;
高宁 ;
李洪珏 .
中国专利 :CN120688552A ,2025-09-23
[10]
一种基于大语言模型和强化学习的威胁狩猎方法 [P]. 
王俊峰 ;
崔泽源 ;
葛文翰 .
中国专利 :CN119728229B ,2025-09-23