基于权值调整的文本分类改进方法

被引:16
作者
鲁明羽
李凡
庞淑英
陆玉昌
周立柱
机构
[1] 清华大学计算机科学与技术系
关键词
文本分类; 权值调整; VSM; Bayes分类器;
D O I
10.16511/j.cnki.qhdxxb.2003.04.021
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本分类是文本挖掘的基础与核心 ,可广泛应用于传统的情报检索和 Web信息的检索与挖掘等。提出了一种利用权值调整思想对向量空间法 (VSM)和朴素 Bayes分类器 (NBC)进行改进的文本分类方法 ,并探讨了利用 EM算法进行无导师 Bayes分类的方法 ,设计和实现了一个中英文文本分类系统 CZW。 3组实验数据表明 ,用某些评估函数调节单词权值可有效提高 VSM和 NBC等文本分类模型的精度 ,并且训练文本规模越大 ,改进的效果越明显。 NBC的分类精度最高可达 86 %。
引用
收藏
页码:513 / 515+520 +520
页数:4
相关论文
共 2 条
  • [1] 关于文本特征抽取新方法的研究
    李凡
    鲁明羽
    陆玉昌
    [J]. 清华大学学报(自然科学版), 2001, (07) : 98 - 101
  • [2] An Evaluation of Statistical Approach to Text Classification .2 YANG Yiming. . 1997