面向术语抽取的双阈值互信息过滤方法

被引:9
作者
陈士超
郁滨
机构
[1] 信息工程大学电子技术学院
关键词
术语抽取; 术语过滤; 互信息; 阈值; 评价指标;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了降低互信息方法固有问题对术语过滤效果的影响,提出一种双阈值互信息过滤方法,给出了一种基于局部评价指标的阈值确定算法,通过数据抽样、统计和计算,能够快速精确地给出最优上下限阈值。相比单阈值互信息过滤方法,在不更改互信息计算公式的前提下,通过设置双阈值的方法进行候选术语过滤与抽取。实验结果表明,在相同条件下,该方法能够显著提高准确率和F-测度值。
引用
收藏
页码:1070 / 1073
页数:4
相关论文
共 8 条
[1]   基于混合策略的高精度长术语自动抽取 [J].
梁颖红 ;
张文静 ;
周德富 .
中文信息学报, 2009, 23 (06) :26-30
[2]   一种面向文本的概念抽取方法的研究 [J].
孙继鹏 ;
贾民 ;
刘增宝 .
计算机应用与软件, 2009, 26 (09) :28-30
[3]   基于卡方检验的汉语术语抽取 [J].
胡文敏 ;
何婷婷 ;
张勇 .
计算机应用, 2007, (12) :3019-3020+3025
[4]   基于质子串分解的中文术语自动抽取 [J].
何婷婷 ;
张勇 .
计算机工程, 2006, (23) :188-190
[5]   基于互信息的中文术语抽取系统 [J].
张锋 ;
许云 ;
侯艳 ;
樊孝忠 .
计算机应用研究, 2005, (05) :72-73+77
[6]  
从大规模中文语料中获取和验证概念的研究.[D].余蕾.中国科学院研究生院(计算技术研究所).2006, 10
[7]  
统计自然语言处理基础.[M].(美)ChristopherD.Manning;(德)HinrichSchutze著;苑春法等译;.电子工业出版社.2005,
[8]  
Lexical Acquisition:Exploiting On-line Resources to Build a Lexicon..Church K; Gale W; Hanks P; et al;.Lawrence Erlbaum Associates.1991,