基于SVM和扩展条件随机场的Web实体活动抽取

被引:14
作者
张传岩
洪晓光
彭朝晖
李庆忠
机构
[1] 山东大学计算机科学与技术学院
关键词
信息抽取; 格语法; 实体活动; 支持向量机; 扩展条件随机场;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
在传统信息抽取的基础上,研究Web实体活动抽取,基于格语法对实体活动进行了形式化定义,并提出一种基于SVM(supported vector machine)和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确地抽取实体的活动信息.首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场.在抽取过程中,通过分类器获得包含实体活动的语句,然后利用扩展条件随机场对传统条件随机场中不能利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率.通过多领域的实验,其结果表明,所提出的抽取方法能够较好地适用于Web实体活动抽取.
引用
收藏
页码:2612 / 2627
页数:16
相关论文
共 5 条
[1]   基于集成学习和二维关联边条件随机场的Web数据语义标注方法 [J].
丁艳辉 ;
李庆忠 ;
董永权 ;
彭朝晖 .
计算机学报, 2010, 33 (02) :267-278
[2]   基于混合跳链条件随机场的异构Web记录集成方法 [J].
黄健斌 ;
姬红兵 ;
孙鹤立 .
软件学报, 2008, (08) :2149-2158
[3]   基于最大熵分类器的语义角色标注 [J].
刘挺 ;
车万翔 ;
李生 .
软件学报, 2007, (03) :565-573
[4]  
The Proposition Bank: An Annotated Corpus of Semantic Roles[J] . Martha Palmer,Daniel Gildea,Paul Kingsbury.Computational Linguistics . 2005 (1)
[5]   SUPPORT-VECTOR NETWORKS [J].
CORTES, C ;
VAPNIK, V .
MACHINE LEARNING, 1995, 20 (03) :273-297