采用CRF技术的军事情报术语自动抽取研究

被引:17
作者
贾美英 [1 ,2 ]
杨炳儒 [1 ]
郑德权 [3 ,2 ]
杨靖 [3 ]
机构
[1] 北京科技大学信息工程学院
[2] 北京图形研究所
[3] 哈尔滨工业大学教育部-微软语言语音重点实验室
关键词
术语抽取; 条件随机场; 模板;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对军事情报领域,提出了一种基于条件随机场的术语抽取方法,该方法将领域术语抽取看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验采用的训练语料来自"搜狐网络军事频道"的新闻数据,测试语料选取《现代军事》杂志2007年第1~8期的所有文章。实验取得了良好的结果,准确率为73.24%,召回率为69.57%,F-测度为71.36%,表明该方法简单易行,且具有领域通用性。
引用
收藏
页码:126 / 129
页数:4
相关论文
共 2 条
[1]   基于质子串分解的中文术语自动抽取 [J].
何婷婷 ;
张勇 .
计算机工程, 2006, (23) :188-190
[2]   汉语术语定义的结构分析和提取 [J].
张艳 ;
宗成庆 ;
徐波 .
中文信息学报, 2003, (06) :9-16