共 8 条
中文文本分类中基于概念屏蔽层的特征提取方法
被引:11
作者:
廖莎莎
江铭虎
机构:
[1] 清华大学人文学院计算语言实验室清华大学认知科学创新基地
来源:
关键词:
计算机应用;
中文信息处理;
文本分类;
特征提取;
概念抽取;
属性特征树;
屏蔽层;
描述能力;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
本文提出了一种新的基于概念抽取和屏蔽层的特征选择方法。该方法利用HowNet概念词典中的概念树,通过义原在概念树中的位置信息进行概念抽取,并赋予其适当权值来说明其描述能力。对于权值低于屏蔽层的义原,我们不将其选入特征集,并相应保留原词。具体到每个词,我们计算其DEF条目中的权值,决定是将原词选入特征集还是进行概念抽取。本文重点研究了如何给义原设定一个合适的权值,如何在选取原词和概念之间取得平衡以及针对非概念词的加权处理。实验证明,设定合适的屏蔽层,不仅可以缩小特征维数,使分类正确率得到一定的提高,而且可以减少不同类别间的分类正确率的差别。
引用
收藏
页码:22 / 28
页数:7
相关论文