一种面向术语抽取的短语过滤技术

被引:8
作者
周浪 [1 ,2 ]
冯冲 [2 ]
黄河燕 [2 ]
机构
[1] 南京理工大学计算机科学与技术学院
[2] 中国科学院计算机语言与信息工程研究中心
关键词
术语抽取; 短语过滤; 左右熵; 活跃因子;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。
引用
收藏
页码:9 / 11
页数:3
相关论文
empty
未找到相关数据