学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种面向术语抽取的短语过滤技术
被引:8
作者
:
论文数:
引用数:
h-index:
机构:
周浪
[
1
,
2
]
冯冲
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机语言与信息工程研究中心
南京理工大学计算机科学与技术学院
冯冲
[
2
]
黄河燕
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算机语言与信息工程研究中心
南京理工大学计算机科学与技术学院
黄河燕
[
2
]
机构
:
[1]
南京理工大学计算机科学与技术学院
[2]
中国科学院计算机语言与信息工程研究中心
来源
:
计算机工程与应用
|
2009年
/ 45卷
/ 19期
关键词
:
术语抽取;
短语过滤;
左右熵;
活跃因子;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。
引用
收藏
页码:9 / 11
页数:3
相关论文
未找到相关数据
未找到相关数据