基于自身特征扩展的短文本分类方法

被引:14
作者
胡学钢
杨超群
张玉红
机构
[1] 合肥工业大学计算机与信息学院
关键词
短文本; 稀疏; 信号弱; 扩展; 离散度; 相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
短文本具有特征稀疏、描述概念信号弱等特点,传统方法对短文本进行分类很难取得较好结果。针对上述问题,提出了一种基于自身特征扩展的短文本分类方法 SC-FE。该方法首先基于类内离散度从每个类中选取高类别指示性的特征组成特征空间;其次对样本的特征,在已选的特征空间中选取其相关度最大的特征加入短文本中进行扩充。在实际数据集上的实验结果表明,该方法可有效提高短文本的分类效果。
引用
收藏
页码:1008 / 1010
页数:3
相关论文
共 4 条
[1]   一种压缩采样中的稀疏度自适应子空间追踪算法 [J].
杨成 ;
冯巍 ;
冯辉 ;
杨涛 ;
胡波 .
电子学报, 2010, 38 (08) :1914-1917
[2]   词汇间语义相关关系量化计算方法 [J].
钟茂生 ;
刘慧 ;
刘磊 .
中文信息学报, 2009, 23 (02) :115-122
[3]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 ;
不详 .
计算机工程与应用 , 2005, (01) :181-184+220
[4]   Short text similarity based on probabilistic topics [J].
Quan, Xiaojun ;
Liu, Gang ;
Lu, Zhi ;
Ni, Xingliang ;
Wenyin, Liu .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 25 (03) :473-491