共 5 条
一种基于向量空间模型的多层次文本分类方法
被引:67
作者:
刘少辉
董明楷
张海俊
李蓉
史忠植
机构:
[1] 中国科学院计算技术研究所智能信息处理重点实验室
来源:
关键词:
文本分类;
向量空间模型;
信息增益;
特征提取;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 ,该方法具有较高的正确率和召回率
引用
收藏
页码:8 / 14+26
+26
页数:8
相关论文