基于CRF和半监督学习的中文时间信息抽取

被引:8
作者
闫紫飞
姬东鸿
机构
[1] 武汉大学计算机学院
基金
国家自然科学基金重点项目;
关键词
条件随机场; 时间抽取; 时间识别; 半监督; 自训练;
D O I
10.16208/j.issn1000-7024.2015.06.044
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为提高文本中时间信息识别和抽取的效率,提出一种基于CRF(条件随机场)的方法。根据时间信息表现出的一般特点,采用机器学习的方法,通过分析文本中相关词性、短语结构和上下文信息等,提取时间信息的外部特征,采用一种自训练的半监督方法,使用CRF进行识别和抽取。实验结果表明,该方法有效提升了时间识别的性能,在显性时间、隐性时间和总体时间上分别取得了96.25%、88.65%和93.97%的F1值。
引用
收藏
页码:1642 / 1646
页数:5
相关论文
共 9 条
[1]   基于语义角色的中文时间表达式识别 [J].
刘莉 ;
何中市 ;
邢欣来 ;
毛小丽 .
计算机应用研究, 2011, 28 (07) :2543-2545
[2]   基于最大熵的句内时间关系识别 [J].
王风娥 ;
谭红叶 ;
钱揖丽 .
计算机工程, 2012, 38 (04) :37-39
[3]  
Event recognitionbased on time series characteristics. Li Feng-huan,Zheng De-quan,Zhao Tie-jun. Proceedings of Con-ference on Fuzzy Systems and Knowledge Discovery . 2011
[4]  
A Rule Based Approach to Temporal Expression Tagging. PawelMaqur,Robert Dale. Proceeding of the International Multiconference on Computer Science and Information Technology . 2007
[5]  
ace (automatic content extraction)Chinese annotation guidelines for TIMEX2. Linguistic data consortium. http://www.ldc.upenn.edu/Projects/ACE . 2009
[6]  
中文命名实体识别方法研究[D]. 廖先桃.哈尔滨工业大学 2006
[7]  
Named Entity Recogni-tion Task Definition Versionl. 4[OL]. Chinchor N,Brown E,Ferro L, et al. ftp:// jaguar. ncsl. nist. gov/ace/phasel/ne99taskdefvl4.pdf . 1999
[8]   CRF与规则相结合的军事命名实体识别研究 [J].
姜文志 ;
顾佼佼 ;
丛林虎 .
指挥控制与仿真, 2011, 33 (04) :13-15
[9]  
Past TAC (Text Analysis Conference) Data. http://www. nist. gov/tac/data/ . 2011