中文文本分类中基于概念屏蔽层的特征提取方法

被引:11
作者
廖莎莎
江铭虎
机构
[1] 清华大学人文学院计算语言实验室清华大学认知科学创新基地
关键词
计算机应用; 中文信息处理; 文本分类; 特征提取; 概念抽取; 属性特征树; 屏蔽层; 描述能力;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文提出了一种新的基于概念抽取和屏蔽层的特征选择方法。该方法利用HowNet概念词典中的概念树,通过义原在概念树中的位置信息进行概念抽取,并赋予其适当权值来说明其描述能力。对于权值低于屏蔽层的义原,我们不将其选入特征集,并相应保留原词。具体到每个词,我们计算其DEF条目中的权值,决定是将原词选入特征集还是进行概念抽取。本文重点研究了如何给义原设定一个合适的权值,如何在选取原词和概念之间取得平衡以及针对非概念词的加权处理。实验证明,设定合适的屏蔽层,不仅可以缩小特征维数,使分类正确率得到一定的提高,而且可以减少不同类别间的分类正确率的差别。
引用
收藏
页码:22 / 28
页数:7
相关论文
共 8 条
[1]   基于HowNet概念获取的中文自动文摘系统 [J].
王萌 ;
何婷婷 ;
姬东鸿 ;
王晓荣 .
中文信息学报, 2005, (03) :87-93
[2]   结合类频率的关联中文文本分类 [J].
钱铁云 ;
王元珍 ;
冯小年 .
中文信息学报, 2004, (06) :30-36
[3]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[4]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[5]   基于语义相关和概念相关的自动分类方法研究 [J].
李莼 ;
罗振声 ;
厉宇航 ;
不详 .
计算机工程与应用 , 2003, (12) :106-109
[6]   基于概念统计和语义层次分析的英文自动文摘研究 [J].
季姮 ;
罗振声 ;
万敏 ;
高小云 .
中文信息学报, 2003, (02) :14-20
[7]   一个基于概念的中文文本分类模型 [J].
苏伟峰 ;
李绍滋 ;
李堂秋 .
计算机工程与应用, 2002, (06) :193-195
[8]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101