基于高校网站内容的实体抽取研究

被引：1

作者：

崔梦娇

李红莲

吕学强

周建设

机构：

[1] 北京信息科技大学网络文化与数字传播北京市重点实验室

来源：

北京信息科技大学学报(自然科学版) | 2016年 / 31卷 / 05期

关键词：

高校会议稿; 实体识别; 基于规则; 条件随机场;

D O I：

10.16508/j.cnki.11-5866/n.2016.05.020

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

针对高校网站上大量的会议稿中的人名、地名以及会议名称等重要信息,提出了一种基于规则与统计相结合的识别方法,首先根据会议稿的特点将会议稿分为2类,规则和非规则会议稿,其中规则会议稿采用编写规则的方法来抽取会议稿中的实体,非规则会议稿则通过条件随机场进行初步识别,然后,再针对条件随机场未能识别的实体进行基于规则的识别。实验结果表明,该方法的识别效果明显优于仅采用单次规则或条件随机场的处理结果。

引用

页码：92 / 96

页数：5

共 7 条

[1] 大数据下的机器学习算法综述
何清
李宁
罗文娟
史忠植
[J]. 模式识别与人工智能, 2014, 27 (04) : 327 - 336
[2] 正则表达式的研究及在Web中的应用
唐惠丽
郑小妹
[J]. 计算机技术与发展, 2013, 23 (02) : 82 - 84+88
[3] 知识抽取技术综述
刘鹏博
车海燕
陈伟
[J]. 计算机应用研究, 2010, 27 (09) : 3222 - 3226
[4] 命名实体识别研究进展综述
孙镇
王惠临
[J]. 现代图书情报技术, 2010, (06) : 42 - 47
[5] 基于角色标注的中国人名自动识别研究
张华平
刘群
[J]. 计算机学报, 2004, (01) : 85 - 91
[6] 基于条件随机域的中文命名实体识别研究[D]. 王志强.南京理工大学. 2006
[7] 统计学习方法[M]. 清华大学出版社 , 李航, 2012

← 1 →