基于CRFs的冶金领域中文专利术语抽取研究

被引:30
作者
王密平
王昊
邓三鸿
吴志祥
机构
[1] 南京大学信息管理学院
[2] 江苏省数据工程与知识服务重点实验室
关键词
中文专利术语; 条件随机场; 术语抽取; 序列标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; G306 [专利研究];
学科分类号
071101 [系统理论]; 120506 [数字人文];
摘要
【目的】探讨冶金领域中文专利术语抽取模型的最优条件,用于有效地抽取冶金领域专利术语。【方法】使用尚不完善的核心语料库,在无需人工标引的情况下,采用条件随机场(CRFs)构建字角色标注的冶金领域中文专利术语识别模型。详细说明模型的构建过程,同时重点对比CFRs的各个因素(特征组合、字长窗口等)对识别效果的影响。【结果】实验结果表明字序列、级别特征、领域特征、温度特征的组合在字长窗口为3,c等于1,f等于1时,准确率达到94.26%,召回率达到94.37%,F1值达到94.5%。【局限】核心词典欠完善,使得部分词语标注不够准确;未与其他方法作详细比较,未详细说明CRFs的可靠性。【结论】CRFs在适当的角色和特征以及特征模板的组合下能较好地识别出冶金领域的中文专利术语。
引用
收藏
页码:28 / 36
页数:9
相关论文
共 24 条
[1]
基于最大熵模型的汉语标点句缺失话题自动识别初探 [J].
卢达威 ;
宋柔 .
计算机工程与科学, 2015, 37 (12) :2282-2293
[2]
术语自动抽取方法研究综述 [J].
袁劲松 ;
张小明 ;
李舟军 .
计算机科学, 2015, 42 (08) :7-12
[3]
基于条件随机场方法的汉语专利文本介词短语识别.[J].李洪政;晋耀红;.现代语文(语言研究版).2015, 07
[4]
多特征下的科研论文段落自动划分与构成要素识别研究 [J].
刘伙玉 ;
王东波 ;
苏新宁 .
情报学报, 2015, 34 (04) :388-397
[5]
基于信息熵和词频分布变化的术语抽取研究 [J].
李丽双 ;
王意文 ;
黄德根 .
中文信息学报, 2015, 29 (01) :82-87
[6]
基于条件随机场的专利术语抽取 [J].
刘辉 ;
刘耀 .
数字图书馆论坛, 2014, (12) :46-49
[7]
领域本体术语的抽取方法研究 [J].
张雷瀚 ;
吕学强 ;
李卓 ;
徐丽萍 .
情报学报, 2014, 33 (02) :167-174
[8]
领域本体术语抽取研究 [J].
汤青 ;
吕学强 ;
李卓 ;
施水才 .
现代图书情报技术, 2014, (01) :43-50
[9]
针对中文学术文献的情报方法术语抽取 [J].
化柏林 .
现代图书情报技术, 2013, (06) :68-75
[10]
基于HMM的京剧机构命名实体识别算法 [J].
乐娟 ;
赵玺 .
计算机工程, 2013, 39 (06) :266-271+286