主动学习与自学习的中文命名实体识别

被引:16
作者
钟志农
刘方驰
吴烨
伍江江
机构
[1] 国防科技大学电子科学与工程学院
基金
湖南省自然科学基金;
关键词
主动学习; 自学习; 条件随机场; 命名实体识别;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
命名实体识别是信息抽取中的一项基础性任务,如何利用丰富的未标注语料来提高实体识别的指标是该领域一个重要的研究方向。基于条件随机场提出一种将主动学习与自学习相结合的方法——SACRF,通过设置置信度函数和2-Gram频度阈值来选取样本,并采用人工与自动相结合的方式进行标注来扩展训练语料。实验表明,该方法在提高实体识别的精确率和召回率的同时,能够显著地降低人工标注的工作量。
引用
收藏
页码:82 / 88
页数:7
相关论文
共 2 条
[1]  
基于支持向量机的中文组织机构名识别.[D].陈霄.上海交通大学.2007, 06
[2]  
统计学习方法.[M].李航; 著.清华大学出版社.2012,