一种基于VSM文本分类系统的设计与实现

被引:20
作者
李凡
林爱武
陈国社
机构
[1] 华中科技大学计算机科学与技术学院
基金
国家高性能计算基金;
关键词
文本分类; 向量空间模型; 特征提取; 结构层次权重系数; 训练算法; 分类算法;
D O I
10.13245/j.hust.2005.03.017
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
阐述了一个基于改进向量空间模型的中文文本分类系统的设计与实现 ,包括对该系统的结构、预处理、特征提取、训练算法 ,分类算法等关键技术的介绍 .通过引入结构层次权重系数来改进文本特征项权重 ,同时提出一种新的训练算法和文本相似度域值计算方法 .实验结果证明 :该分类系统能有效地提高文本分类效果 ,开放性测试的平均准确率在 80 %以上 ,且平均查全率达到了 86 % .
引用
收藏
页码:53 / 55
页数:3
相关论文
共 2 条