一种基于类别分布信息的中文文本分类模型

被引:2
作者
刘海峰 [1 ]
王元元 [1 ]
姚泽清 [2 ]
机构
[1] 解放军理工大学指挥自动化学院
[2] 解放军理工大学理学院
关键词
文本分类; 特征选择; 特征聚类; Bayes分布; 文本表示;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
特征降维是文本分类面临的主要问题之一。首先通过x2分布对特征项进行选择,然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类,借助类别分布信息,在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩;在基于类别概率分布的模式下实现文本的矩阵表示,借助矩阵理论进行文本分类。试验结果表明,该方法的分类效率较高。
引用
收藏
页码:73 / 76
页数:4
相关论文
共 14 条
[1]   基于分类的VSM模式下文本检索研究 [J].
刘海峰 ;
王元元 ;
王倩 .
情报科学 , 2006, (11) :1700-1703
[2]   基于向量模型的文本检索若干问题研究 [J].
刘海峰 ;
王元元 .
情报杂志, 2006, (10) :57-59+62
[3]   小样本情况下Fisher线性鉴别分析的理论及其验证 [J].
陈伏兵 ;
张生亮 ;
高秀梅 ;
杨静宇 ;
不详 .
中国图象图形学报 , 2005, (08) :49-56
[4]   一种义项矩阵模型SMM [J].
孙斌 .
中文信息学报, 2005, (02) :28-35
[5]   一种应用向量聚合技术的KNN中文文本分类方法 [J].
李莹 ;
张晓辉 ;
王华勇 ;
常桂然 .
小型微型计算机系统, 2004, (06) :993-996
[6]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[7]   关于SVD与PCA等价性的研究 [J].
吴春国 ;
梁艳春 ;
孙延风 ;
周春光 ;
吕英华 .
计算机学报, 2004, (02) :286-288
[8]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[9]   基于潜在语义分析的信息检索 [J].
盖杰 ;
王怡 ;
武港山 .
计算机工程, 2004, (02) :58-60
[10]   应用特征聚合进行中文文本分类的改进KNN算法 [J].
张晓辉 ;
李莹 ;
王华勇 ;
赵宏 .
东北大学学报, 2003, (03) :229-232