不均衡大数据集下的文本特征基因提取方法

被引:12
作者
孙晶涛 [1 ]
张秋余 [2 ]
机构
[1] 西安邮电大学计算机学院
[2] 兰州理工大学计算机与通信学院
关键词
CHI统计选择方法; 不均衡大数据集; 独立成分分析; 信息熵; 文本特征基因提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
在不均衡大数据集情况下,传统特征处理方法偏重大类而忽略小类,影响分类性能。该文提出了一种文本特征基因提取方法。首先,基于样本类别分布不均衡对特征选择的影响,给出了一种结合信息熵的CHI统计矩阵特征选择方法,以强化小类的特征;然后,在探究多维统计数据高阶相关性的基础上,采取独立成分分析手段,设计了文本特征基因提取方法,用以增强特征项的泛化能力;最后,将这两种方法相融合,实现了在不均衡大数据集下的文本特征基因提取新方法。实验结果表明,所提方法具有较好的早熟性及特征降维能力,在小类的分类效果上优于常见特征选择算法。
引用
收藏
页码:125 / 131
页数:7
相关论文
共 15 条
[1]
一种多义词词向量计算方法 [J].
曾琦 ;
周刚 ;
兰明敬 ;
王濛 .
小型微型计算机系统, 2016, 37 (07) :1417-1421
[2]
一种改进的文本特征提取算法 [J].
马力 ;
刘惠福 .
西安邮电大学学报, 2015, 20 (06) :79-81+120
[3]
基于特征学习的文本大数据内容理解及其发展趋势 [J].
袁书寒 ;
向阳 ;
鄂世嘉 .
大数据, 2015, 1 (03) :72-81
[4]
基于BSMOTE和逆转欠抽样的不均衡数据分类算法 [J].
陈睿 ;
张亮 ;
杨静 ;
胡荣贵 .
计算机应用研究, 2014, 31 (11) :3299-3303
[6]
FastICA和RobustICA算法在盲源分离中的性能分析 [J].
吴微 ;
彭华 ;
张帆 .
计算机应用研究, 2014, 31 (01) :95-98+119
[7]
基于非均衡数据集的代价敏感学习算法比较研究 [J].
谷琼 ;
袁磊 ;
熊启军 ;
宁彬 ;
李文新 .
微电子学与计算机, 2011, 28 (08) :146-149+153
[8]
改进的基于核密度估计的数据分类算法 [J].
李俊林 ;
符红光 .
控制与决策, 2010, 25 (04) :507-514
[9]
Weblog and short text feature extraction and impact on categorisation[J] Fernando Perez-Tellez;John Cardiff;Paolo Rosso;David Pinto Journal of Intelligent & Fuzzy Systems 2014,
[10]
Feature Extension for Short Text Categorization Using Frequent Term Sets[J] Yuan Man Procedia Computer Science 2014,