学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于改进C-value方法的中文术语抽取
被引:21
作者
:
胡阿沛
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术信息研究所
胡阿沛
张静
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术信息研究所
张静
刘俊丽
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术信息研究所
刘俊丽
机构
:
[1]
中国科学技术信息研究所
来源
:
现代图书情报技术
|
2013年
/ 02期
关键词
:
术语抽取;
串频统计;
语言规则;
术语度;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
提出一种改进C-value的术语抽取方法,即IC-value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术语;对候选术语进行语言规则过滤;从逆文档频率、破碎子串和术语长度三个方面改进C-value方法得到IC-value方法,并用来计算候选术语的术语度。以1 000篇乙型肝炎相关论文摘要进行实证研究,结果证明IC-value方法在准确率和召回率方面都要优于C-value、TF-IDF和V-value,有较强的长术语发现能力,且识别破碎子串的效果十分明显。
引用
收藏
页码:24 / 29
页数:6
相关论文
共 12 条
[1]
上下文分析与统计特征相结合的英文术语抽取研究
许德山
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院国家科学图书馆
中国科学院研究生院
中国科学院国家科学图书馆
许德山
张智雄
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院国家科学图书馆
中国科学院国家科学图书馆
张智雄
王峰
论文数:
0
引用数:
0
h-index:
0
机构:
中北大学电子测试技术国家重点实验室
中国科学院国家科学图书馆
王峰
论文数:
引用数:
h-index:
机构:
邢美凤
[J].
现代图书情报技术,
2010,
(12)
: 28
-
33
[2]
基于领域类别信息C-value的多词串自动抽取
论文数:
引用数:
h-index:
机构:
李超
王会珍
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
王会珍
论文数:
引用数:
h-index:
机构:
朱慕华
论文数:
引用数:
h-index:
机构:
张俐
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
朱靖波
[J].
中文信息学报,
2010,
(01)
: 94
-
98
[3]
基于隐马尔科夫模型的中文术语识别研究
论文数:
引用数:
h-index:
机构:
岑咏华
论文数:
引用数:
h-index:
机构:
韩哲
季培培
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院国家科学图书馆
中国科学院研究生院
南京理工大学经济管理学院
季培培
[J].
现代图书情报技术,
2008,
(12)
: 54
-
58
[4]
服务于词典编纂的特定领域专业术语自动抽取
安纪霞
论文数:
0
引用数:
0
h-index:
0
机构:
东北电力大学信息工程学院
东北电力大学信息工程学院
安纪霞
李锡祚
论文数:
0
引用数:
0
h-index:
0
机构:
大连民族学院计算机工程学院
东北电力大学信息工程学院
李锡祚
宋冰
论文数:
0
引用数:
0
h-index:
0
机构:
东北电力大学信息工程学院
东北电力大学信息工程学院
宋冰
曾伟
论文数:
0
引用数:
0
h-index:
0
机构:
江西赣西供电公司调度通信中心
东北电力大学信息工程学院
曾伟
[J].
计算机与数字工程,
2007,
(11)
: 53
-
56+5
[5]
基于互信息的中文术语抽取系统
张锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
张锋
许云
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
许云
论文数:
引用数:
h-index:
机构:
侯艳
樊孝忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
樊孝忠
[J].
计算机应用研究,
2005,
(05)
: 72
-
73+77
[6]
信息技术领域术语提取的初步研究
王强军
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学
王强军
李芸
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学
李芸
张普
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学
张普
[J].
术语标准化与信息技术,
2003,
(01)
: 32
-
33+37
[7]
基于多策略融合的中文术语抽取方法.[J].周浪;史树敏;冯冲;黄河燕;.情报学报.2010, 03
[8]
LCS算法在术语抽取中的应用研究.[J].潘虹;徐朝军;.情报学报.2010, 05
[9]
专利技术术语的抽取方法.[J].韩红旗;朱东华;汪雪锋;.情报学报.2011, 12
[10]
现代术语学引论.[M].冯志伟著;.语文出版社.1997,
←
1
2
→
共 12 条
[1]
上下文分析与统计特征相结合的英文术语抽取研究
许德山
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院国家科学图书馆
中国科学院研究生院
中国科学院国家科学图书馆
许德山
张智雄
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院国家科学图书馆
中国科学院国家科学图书馆
张智雄
王峰
论文数:
0
引用数:
0
h-index:
0
机构:
中北大学电子测试技术国家重点实验室
中国科学院国家科学图书馆
王峰
论文数:
引用数:
h-index:
机构:
邢美凤
[J].
现代图书情报技术,
2010,
(12)
: 28
-
33
[2]
基于领域类别信息C-value的多词串自动抽取
论文数:
引用数:
h-index:
机构:
李超
王会珍
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
王会珍
论文数:
引用数:
h-index:
机构:
朱慕华
论文数:
引用数:
h-index:
机构:
张俐
朱靖波
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学自然语言处理实验室
朱靖波
[J].
中文信息学报,
2010,
(01)
: 94
-
98
[3]
基于隐马尔科夫模型的中文术语识别研究
论文数:
引用数:
h-index:
机构:
岑咏华
论文数:
引用数:
h-index:
机构:
韩哲
季培培
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院国家科学图书馆
中国科学院研究生院
南京理工大学经济管理学院
季培培
[J].
现代图书情报技术,
2008,
(12)
: 54
-
58
[4]
服务于词典编纂的特定领域专业术语自动抽取
安纪霞
论文数:
0
引用数:
0
h-index:
0
机构:
东北电力大学信息工程学院
东北电力大学信息工程学院
安纪霞
李锡祚
论文数:
0
引用数:
0
h-index:
0
机构:
大连民族学院计算机工程学院
东北电力大学信息工程学院
李锡祚
宋冰
论文数:
0
引用数:
0
h-index:
0
机构:
东北电力大学信息工程学院
东北电力大学信息工程学院
宋冰
曾伟
论文数:
0
引用数:
0
h-index:
0
机构:
江西赣西供电公司调度通信中心
东北电力大学信息工程学院
曾伟
[J].
计算机与数字工程,
2007,
(11)
: 53
-
56+5
[5]
基于互信息的中文术语抽取系统
张锋
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
张锋
许云
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
许云
论文数:
引用数:
h-index:
机构:
侯艳
樊孝忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
樊孝忠
[J].
计算机应用研究,
2005,
(05)
: 72
-
73+77
[6]
信息技术领域术语提取的初步研究
王强军
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学
王强军
李芸
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学
李芸
张普
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学
张普
[J].
术语标准化与信息技术,
2003,
(01)
: 32
-
33+37
[7]
基于多策略融合的中文术语抽取方法.[J].周浪;史树敏;冯冲;黄河燕;.情报学报.2010, 03
[8]
LCS算法在术语抽取中的应用研究.[J].潘虹;徐朝军;.情报学报.2010, 05
[9]
专利技术术语的抽取方法.[J].韩红旗;朱东华;汪雪锋;.情报学报.2011, 12
[10]
现代术语学引论.[M].冯志伟著;.语文出版社.1997,
←
1
2
→