面向专利文献的汉语分词技术研究

被引:31
作者
岳金媛
徐金安
张玉洁
机构
[1] 北京交通大学计算机与信息技术学院
关键词
汉语分词; 条件随机场; 专业术语提取;
D O I
10.13209/j.0479-8023.2013.024
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对专利文献专业术语多、领域广的特点,采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语,使用条件随机场模型(CRF)提高专业术语识别率,提高分词精度。实验结果表明,提出的方法在开放测试下分词的准确率为95.56%,召回率为96.18%,F值为95.87%,大大提高了专利文献的分词精度。
引用
收藏
页码:159 / 164
页数:6
相关论文
共 8 条
[1]
Automatic recognition of multi-word terms: The C-value/NC-value method [J].
Frantzi K. ;
Ananiadou S. ;
Mima H. .
International Journal on Digital Libraries, 2000, 3 (2) :115-130
[2]
中文专利权利要求书分词算法研究 [J].
翟东升 ;
马文姗 .
情报杂志, 2011, 30 (11) :152-155
[3]
中文分词算法在专利文献中的应用研究 [J].
宋立峰 .
海峡科学, 2011, (07) :9-11+26
[4]
基于领域中文文本的术语抽取方法研究 [J].
谷俊 ;
王昊 .
现代图书情报技术, 2011, (04) :29-34
[5]
面向专利文献的中文分词技术的研究 [J].
张桂平 ;
刘东生 ;
尹宝生 ;
徐立军 ;
苗雪雷 .
中文信息学报, 2010, 24 (03) :112-116
[6]
基于混合策略的高精度长术语自动抽取 [J].
梁颖红 ;
张文静 ;
周德富 .
中文信息学报, 2009, 23 (06) :26-30
[7]
基于统计和规则相结合的科技术语自动抽取研究 [J].
刘豹 ;
张桂平 ;
蔡东风 .
计算机工程与应用 , 2008, (23) :147-150
[8]
专利文献的特点及利用.[J].李绩;.中国科技成果.2008, 23