基于改进C-value方法的中文术语抽取

被引:21
作者
胡阿沛
张静
刘俊丽
机构
[1] 中国科学技术信息研究所
关键词
术语抽取; 串频统计; 语言规则; 术语度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出一种改进C-value的术语抽取方法,即IC-value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术语;对候选术语进行语言规则过滤;从逆文档频率、破碎子串和术语长度三个方面改进C-value方法得到IC-value方法,并用来计算候选术语的术语度。以1 000篇乙型肝炎相关论文摘要进行实证研究,结果证明IC-value方法在准确率和召回率方面都要优于C-value、TF-IDF和V-value,有较强的长术语发现能力,且识别破碎子串的效果十分明显。
引用
收藏
页码:24 / 29
页数:6
相关论文
共 12 条
  • [1] 上下文分析与统计特征相结合的英文术语抽取研究
    许德山
    张智雄
    王峰
    邢美凤
    [J]. 现代图书情报技术, 2010, (12) : 28 - 33
  • [2] 基于领域类别信息C-value的多词串自动抽取
    李超
    王会珍
    朱慕华
    张俐
    朱靖波
    [J]. 中文信息学报, 2010, (01) : 94 - 98
  • [3] 基于隐马尔科夫模型的中文术语识别研究
    岑咏华
    韩哲
    季培培
    [J]. 现代图书情报技术, 2008, (12) : 54 - 58
  • [4] 服务于词典编纂的特定领域专业术语自动抽取
    安纪霞
    李锡祚
    宋冰
    曾伟
    [J]. 计算机与数字工程, 2007, (11) : 53 - 56+5
  • [5] 基于互信息的中文术语抽取系统
    张锋
    许云
    侯艳
    樊孝忠
    [J]. 计算机应用研究, 2005, (05) : 72 - 73+77
  • [6] 信息技术领域术语提取的初步研究
    王强军
    李芸
    张普
    [J]. 术语标准化与信息技术, 2003, (01) : 32 - 33+37
  • [7] 基于多策略融合的中文术语抽取方法.[J].周浪;史树敏;冯冲;黄河燕;.情报学报.2010, 03
  • [8] LCS算法在术语抽取中的应用研究.[J].潘虹;徐朝军;.情报学报.2010, 05
  • [9] 专利技术术语的抽取方法.[J].韩红旗;朱东华;汪雪锋;.情报学报.2011, 12
  • [10] 现代术语学引论.[M].冯志伟著;.语文出版社.1997,