基于向量空间模型的文本分类系统的研究与实现

被引:40
作者
陈治纲
何丕廉
孙越恒
郑小慎
机构
[1] 天津大学电子信息工程学院
关键词
计算机应用; 中文信息处理; 文本分类; 测试指标; 特征抽取; 二级分类模式;
D O I
暂无
中图分类号
TP311.52 [];
学科分类号
摘要
文本分类是信息处理的一个重要的研究课题 ,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标 ,提出了一种新的特征抽取算法 ,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征“过度拟合”问题 ,并基于此实现了二级分类模式的文本分类系统。和类中心分类法相比 ,实验结果表明二级分类模式具有较高的精度和召回率。
引用
收藏
页码:36 / 41
页数:6
相关论文
共 5 条
  • [1] 文本分类中的特征抽取
    秦进
    陈笑蓉
    汪维家
    陆汝占
    [J]. 计算机应用, 2003, (02) : 45 - 46
  • [2] 一种基于向量空间模型的多层次文本分类方法
    刘少辉
    董明楷
    张海俊
    李蓉
    史忠植
    [J]. 中文信息学报, 2002, (03) : 8 - 14+26
  • [3] 独立于语种的文本分类方法
    黄萱菁
    吴立德
    石崎洋之
    徐国伟
    [J]. 中文信息学报, 2000, (06) : 1 - 7
  • [4] 概念推理网及其在文本分类中的应用
    李晓黎
    刘继敏
    史忠植
    [J]. 计算机研究与发展, 2000, (09) : 1032 - 1038
  • [5] An Evaluation of Statistical Approaches to Text Categorization
    Yiming Yang
    [J]. Information Retrieval, 1999, 1 (1-2): : 69 - 90