学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于CRFs的冶金领域中文专利术语抽取研究
被引:30
作者
:
论文数:
引用数:
h-index:
机构:
王密平
论文数:
引用数:
h-index:
机构:
王昊
论文数:
引用数:
h-index:
机构:
邓三鸿
论文数:
引用数:
h-index:
机构:
吴志祥
机构
:
[1]
南京大学信息管理学院
[2]
江苏省数据工程与知识服务重点实验室
来源
:
现代图书情报技术
|
2016年
/ 06期
关键词
:
中文专利术语;
条件随机场;
术语抽取;
序列标注;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
G306 [专利研究];
学科分类号
:
071101
[系统理论]
;
120506
[数字人文]
;
摘要
:
【目的】探讨冶金领域中文专利术语抽取模型的最优条件,用于有效地抽取冶金领域专利术语。【方法】使用尚不完善的核心语料库,在无需人工标引的情况下,采用条件随机场(CRFs)构建字角色标注的冶金领域中文专利术语识别模型。详细说明模型的构建过程,同时重点对比CFRs的各个因素(特征组合、字长窗口等)对识别效果的影响。【结果】实验结果表明字序列、级别特征、领域特征、温度特征的组合在字长窗口为3,c等于1,f等于1时,准确率达到94.26%,召回率达到94.37%,F1值达到94.5%。【局限】核心词典欠完善,使得部分词语标注不够准确;未与其他方法作详细比较,未详细说明CRFs的可靠性。【结论】CRFs在适当的角色和特征以及特征模板的组合下能较好地识别出冶金领域的中文专利术语。
引用
收藏
页码:28 / 36
页数:9
相关论文
共 24 条
[1]
基于最大熵模型的汉语标点句缺失话题自动识别初探
[J].
论文数:
引用数:
h-index:
机构:
卢达威
;
论文数:
引用数:
h-index:
机构:
宋柔
.
计算机工程与科学,
2015,
37
(12)
:2282
-2293
[2]
术语自动抽取方法研究综述
[J].
袁劲松
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学
袁劲松
;
论文数:
引用数:
h-index:
机构:
张小明
;
论文数:
引用数:
h-index:
机构:
李舟军
.
计算机科学,
2015,
42
(08)
:7
-12
[3]
基于条件随机场方法的汉语专利文本介词短语识别.[J].李洪政;晋耀红;.现代语文(语言研究版).2015, 07
[4]
多特征下的科研论文段落自动划分与构成要素识别研究
[J].
论文数:
引用数:
h-index:
机构:
刘伙玉
;
论文数:
引用数:
h-index:
机构:
王东波
;
论文数:
引用数:
h-index:
机构:
苏新宁
.
情报学报,
2015,
34
(04)
:388
-397
[5]
基于信息熵和词频分布变化的术语抽取研究
[J].
论文数:
引用数:
h-index:
机构:
李丽双
;
论文数:
引用数:
h-index:
机构:
王意文
;
论文数:
引用数:
h-index:
机构:
黄德根
.
中文信息学报,
2015,
29
(01)
:82
-87
[6]
基于条件随机场的专利术语抽取
[J].
刘辉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术信息研究所
刘辉
;
论文数:
引用数:
h-index:
机构:
刘耀
.
数字图书馆论坛,
2014,
(12)
:46
-49
[7]
领域本体术语的抽取方法研究
[J].
论文数:
引用数:
h-index:
机构:
张雷瀚
;
论文数:
引用数:
h-index:
机构:
吕学强
;
论文数:
引用数:
h-index:
机构:
李卓
;
徐丽萍
论文数:
0
引用数:
0
h-index:
0
机构:
北京城市系统工程研究中心
北京信息科技大学网络文化与数字传播北京市重点实验室
徐丽萍
.
情报学报,
2014,
33
(02)
:167
-174
[8]
领域本体术语抽取研究
[J].
论文数:
引用数:
h-index:
机构:
汤青
;
论文数:
引用数:
h-index:
机构:
吕学强
;
论文数:
引用数:
h-index:
机构:
李卓
;
论文数:
引用数:
h-index:
机构:
施水才
.
现代图书情报技术,
2014,
(01)
:43
-50
[9]
针对中文学术文献的情报方法术语抽取
[J].
论文数:
引用数:
h-index:
机构:
化柏林
.
现代图书情报技术,
2013,
(06)
:68
-75
[10]
基于HMM的京剧机构命名实体识别算法
[J].
论文数:
引用数:
h-index:
机构:
乐娟
;
论文数:
引用数:
h-index:
机构:
赵玺
.
计算机工程,
2013,
39
(06)
:266
-271+286
←
1
2
3
→
共 24 条
[1]
基于最大熵模型的汉语标点句缺失话题自动识别初探
[J].
论文数:
引用数:
h-index:
机构:
卢达威
;
论文数:
引用数:
h-index:
机构:
宋柔
.
计算机工程与科学,
2015,
37
(12)
:2282
-2293
[2]
术语自动抽取方法研究综述
[J].
袁劲松
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学
袁劲松
;
论文数:
引用数:
h-index:
机构:
张小明
;
论文数:
引用数:
h-index:
机构:
李舟军
.
计算机科学,
2015,
42
(08)
:7
-12
[3]
基于条件随机场方法的汉语专利文本介词短语识别.[J].李洪政;晋耀红;.现代语文(语言研究版).2015, 07
[4]
多特征下的科研论文段落自动划分与构成要素识别研究
[J].
论文数:
引用数:
h-index:
机构:
刘伙玉
;
论文数:
引用数:
h-index:
机构:
王东波
;
论文数:
引用数:
h-index:
机构:
苏新宁
.
情报学报,
2015,
34
(04)
:388
-397
[5]
基于信息熵和词频分布变化的术语抽取研究
[J].
论文数:
引用数:
h-index:
机构:
李丽双
;
论文数:
引用数:
h-index:
机构:
王意文
;
论文数:
引用数:
h-index:
机构:
黄德根
.
中文信息学报,
2015,
29
(01)
:82
-87
[6]
基于条件随机场的专利术语抽取
[J].
刘辉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术信息研究所
刘辉
;
论文数:
引用数:
h-index:
机构:
刘耀
.
数字图书馆论坛,
2014,
(12)
:46
-49
[7]
领域本体术语的抽取方法研究
[J].
论文数:
引用数:
h-index:
机构:
张雷瀚
;
论文数:
引用数:
h-index:
机构:
吕学强
;
论文数:
引用数:
h-index:
机构:
李卓
;
徐丽萍
论文数:
0
引用数:
0
h-index:
0
机构:
北京城市系统工程研究中心
北京信息科技大学网络文化与数字传播北京市重点实验室
徐丽萍
.
情报学报,
2014,
33
(02)
:167
-174
[8]
领域本体术语抽取研究
[J].
论文数:
引用数:
h-index:
机构:
汤青
;
论文数:
引用数:
h-index:
机构:
吕学强
;
论文数:
引用数:
h-index:
机构:
李卓
;
论文数:
引用数:
h-index:
机构:
施水才
.
现代图书情报技术,
2014,
(01)
:43
-50
[9]
针对中文学术文献的情报方法术语抽取
[J].
论文数:
引用数:
h-index:
机构:
化柏林
.
现代图书情报技术,
2013,
(06)
:68
-75
[10]
基于HMM的京剧机构命名实体识别算法
[J].
论文数:
引用数:
h-index:
机构:
乐娟
;
论文数:
引用数:
h-index:
机构:
赵玺
.
计算机工程,
2013,
39
(06)
:266
-271+286
←
1
2
3
→