一种基于多轮红队攻击的大模型安全对齐方法及装置

被引:0
专利类型
发明
申请号
CN202510609811.X
申请日
2025-05-13
公开(公告)号
CN120146199A
公开(公告)日
2025-06-13
发明(设计)人
李晶 郭葳杨 张民
申请人
哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
申请人地址
518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区
IPC主分类号
G06N5/04
IPC分类号
G06N20/00
代理机构
北京市广友专利事务所有限责任公司 11237
代理人
张微;张仲波
法律状态
实质审查的生效
国省代码
山东省 威海市
引用
下载
收藏
共 50 条
[1]
一种基于多轮红队攻击的大模型安全对齐方法及装置 [P]. 
李晶 ;
郭葳杨 ;
张民 .
中国专利 :CN120146199B ,2025-07-18
[2]
一种大语言模型的安全对齐方法及装置 [P]. 
王岱鑫 ;
陈岑 ;
周广浩 .
中国专利 :CN120910391A ,2025-11-07
[3]
一种针对大语言模型的安全对齐测试方法及系统 [P]. 
刘小垒 ;
刘成 ;
李星煜 ;
张峰 ;
丁康一 ;
辛邦洲 .
中国专利 :CN120670557A ,2025-09-19
[4]
一种基于动态约束强化学习的大模型安全对齐方法 [P]. 
孟繁宇 ;
白志欣 ;
王砚铭 ;
霍静 ;
王博岩 ;
杨希 ;
高阳 .
中国专利 :CN119539057A ,2025-02-28
[5]
一种用于大语言模型安全防御的自动红队演练方法 [P]. 
邓达臻 ;
郑华伟 ;
张楚涵 ;
巫英才 .
中国专利 :CN119089974A ,2024-12-06
[6]
基于语义熵的大模型自博弈安全对齐方法和装置 [P]. 
曹利峰 ;
杜学绘 ;
孙浩东 ;
王娜 ;
刘敖迪 ;
赵正源 ;
石昊天 ;
王文娟 ;
任志宇 ;
单棣斌 .
中国专利 :CN121072738A ,2025-12-05
[7]
一种基于知识遗忘的大模型对齐方法及装置 [P]. 
李晶 ;
史泽生 ;
张民 .
中国专利 :CN120373355A ,2025-07-25
[8]
大语言模型安全对齐训练方法、装置、电子设备及介质 [P]. 
黄民烈 ;
张哲昕 ;
杨振宇 .
中国专利 :CN118966299A ,2024-11-15
[9]
基于层次混合专家模型的大模型多偏好对齐方法及装置 [P]. 
李晶 ;
李卓 ;
李修成 ;
张民 .
中国专利 :CN119862423A ,2025-04-22
[10]
基于层次混合专家模型的大模型多偏好对齐方法及装置 [P]. 
李晶 ;
李卓 ;
李修成 ;
张民 .
中国专利 :CN119862423B ,2025-06-17