学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
面向专利文献的汉语分词技术研究
被引:31
作者
:
论文数:
引用数:
h-index:
机构:
岳金媛
论文数:
引用数:
h-index:
机构:
徐金安
张玉洁
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
张玉洁
机构
:
[1]
北京交通大学计算机与信息技术学院
来源
:
北京大学学报(自然科学版)
|
2013年
/ 49卷
/ 01期
关键词
:
汉语分词;
条件随机场;
专业术语提取;
D O I
:
10.13209/j.0479-8023.2013.024
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对专利文献专业术语多、领域广的特点,采用基于领域词典与统计相结合的方法探讨了专利文献的汉语分词问题。利用NC-value算法抽取专业术语,使用条件随机场模型(CRF)提高专业术语识别率,提高分词精度。实验结果表明,提出的方法在开放测试下分词的准确率为95.56%,召回率为96.18%,F值为95.87%,大大提高了专利文献的分词精度。
引用
收藏
页码:159 / 164
页数:6
相关论文
共 8 条
[1]
Automatic recognition of multi-word terms: The C-value/NC-value method
[J].
Frantzi K.
论文数:
0
引用数:
0
h-index:
0
机构:
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Frantzi K.
;
Ananiadou S.
论文数:
0
引用数:
0
h-index:
0
机构:
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Ananiadou S.
;
Mima H.
论文数:
0
引用数:
0
h-index:
0
机构:
Dept. of Information Science, University of Tokyo, Bunkyo-ku, Tokyo 113
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Mima H.
.
International Journal on Digital Libraries,
2000,
3
(2)
:115
-130
[2]
中文专利权利要求书分词算法研究
[J].
论文数:
引用数:
h-index:
机构:
翟东升
;
论文数:
引用数:
h-index:
机构:
马文姗
.
情报杂志,
2011,
30
(11)
:152
-155
[3]
中文分词算法在专利文献中的应用研究
[J].
宋立峰
论文数:
0
引用数:
0
h-index:
0
机构:
福建省知识产权信息公共服务中心
宋立峰
.
海峡科学,
2011,
(07)
:9
-11+26
[4]
基于领域中文文本的术语抽取方法研究
[J].
论文数:
引用数:
h-index:
机构:
谷俊
;
论文数:
引用数:
h-index:
机构:
王昊
.
现代图书情报技术,
2011,
(04)
:29
-34
[5]
面向专利文献的中文分词技术的研究
[J].
论文数:
引用数:
h-index:
机构:
张桂平
;
刘东生
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
刘东生
;
尹宝生
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
尹宝生
;
徐立军
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
徐立军
;
苗雪雷
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
苗雪雷
.
中文信息学报,
2010,
24
(03)
:112
-116
[6]
基于混合策略的高精度长术语自动抽取
[J].
论文数:
引用数:
h-index:
机构:
梁颖红
;
论文数:
引用数:
h-index:
机构:
张文静
;
周德富
论文数:
0
引用数:
0
h-index:
0
机构:
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
周德富
.
中文信息学报,
2009,
23
(06)
:26
-30
[7]
基于统计和规则相结合的科技术语自动抽取研究
[J].
刘豹
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
刘豹
;
论文数:
引用数:
h-index:
机构:
张桂平
;
论文数:
引用数:
h-index:
机构:
蔡东风
.
计算机工程与应用 ,
2008,
(23)
:147
-150
[8]
专利文献的特点及利用.[J].李绩;.中国科技成果.2008, 23
←
1
→
共 8 条
[1]
Automatic recognition of multi-word terms: The C-value/NC-value method
[J].
Frantzi K.
论文数:
0
引用数:
0
h-index:
0
机构:
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Frantzi K.
;
Ananiadou S.
论文数:
0
引用数:
0
h-index:
0
机构:
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Ananiadou S.
;
Mima H.
论文数:
0
引用数:
0
h-index:
0
机构:
Dept. of Information Science, University of Tokyo, Bunkyo-ku, Tokyo 113
Centre for Computational Linguistics, UMIST, Manchester, M60 1QD
Mima H.
.
International Journal on Digital Libraries,
2000,
3
(2)
:115
-130
[2]
中文专利权利要求书分词算法研究
[J].
论文数:
引用数:
h-index:
机构:
翟东升
;
论文数:
引用数:
h-index:
机构:
马文姗
.
情报杂志,
2011,
30
(11)
:152
-155
[3]
中文分词算法在专利文献中的应用研究
[J].
宋立峰
论文数:
0
引用数:
0
h-index:
0
机构:
福建省知识产权信息公共服务中心
宋立峰
.
海峡科学,
2011,
(07)
:9
-11+26
[4]
基于领域中文文本的术语抽取方法研究
[J].
论文数:
引用数:
h-index:
机构:
谷俊
;
论文数:
引用数:
h-index:
机构:
王昊
.
现代图书情报技术,
2011,
(04)
:29
-34
[5]
面向专利文献的中文分词技术的研究
[J].
论文数:
引用数:
h-index:
机构:
张桂平
;
刘东生
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
刘东生
;
尹宝生
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
尹宝生
;
徐立军
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
徐立军
;
苗雪雷
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
苗雪雷
.
中文信息学报,
2010,
24
(03)
:112
-116
[6]
基于混合策略的高精度长术语自动抽取
[J].
论文数:
引用数:
h-index:
机构:
梁颖红
;
论文数:
引用数:
h-index:
机构:
张文静
;
周德富
论文数:
0
引用数:
0
h-index:
0
机构:
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
江苏省现代企业信息化应用支撑软件工程技术研究开发中心
周德富
.
中文信息学报,
2009,
23
(06)
:26
-30
[7]
基于统计和规则相结合的科技术语自动抽取研究
[J].
刘豹
论文数:
0
引用数:
0
h-index:
0
机构:
沈阳航空工业学院知识工程中心
刘豹
;
论文数:
引用数:
h-index:
机构:
张桂平
;
论文数:
引用数:
h-index:
机构:
蔡东风
.
计算机工程与应用 ,
2008,
(23)
:147
-150
[8]
专利文献的特点及利用.[J].李绩;.中国科技成果.2008, 23
←
1
→