一种基于向量空间模型的多层次文本分类方法

被引:67
作者
刘少辉
董明楷
张海俊
李蓉
史忠植
机构
[1] 中国科学院计算技术研究所智能信息处理重点实验室
关键词
文本分类; 向量空间模型; 信息增益; 特征提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 ,该方法具有较高的正确率和召回率
引用
收藏
页码:8 / 14+26 +26
页数:8
相关论文
共 5 条