基于Boot Strapping的中文实体关系自动生成

被引:3
作者
张素香
李蕾
秦颖
钟义信
机构
[1] 北京邮电大学信息工程学院智能科学技术研究中心
关键词
Boot Strapping; 种子词; 种子模板; 标量聚类;
D O I
10.19304/j.cnki.issn1000-7180.2006.12.005
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对中文信息抽取系统中建立提取事件模板的难点问题,基于Bootstrapping思想,提出一种简单、可行的实体关系自动生成方法,利用由种子词和种子模板组成的知识库建立学习器,采用标量聚类的方法,通过种子模板抽取更多的与种子词相似语义关系的特征词。在此基础上,利用最近邻居的原则,进而生成更多的抽取模板。丰富了知识库,为分析二元实体关系奠定基础,使得生成复杂的消息模板成为可能,同时极大地减轻手工建立模板的复杂度,有利于系统进行移植。
引用
收藏
页码:15 / 18
页数:4
相关论文
共 2 条
[1]   基于语义的Internet研究 [J].
李宝敏 .
微电子学与计算机, 2005, (09) :130-133
[2]   基于相似度的词聚类算法 [J].
袁里驰 ;
钟义信 .
微电子学与计算机, 2005, (08) :93-95