训练集类别分布对文本分类的影响

被引:27
作者
张启蕊
张凌
董守斌
谭景华
机构
[1] 华南理工大学广东省计算机网络重点实验室
[2] 中国电信集团广州研发中心 广州510640
[3] 广州510630
关键词
文本分类; 训练集; 类别均衡法;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.016
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了减小训练集中各类别资源分布不均衡对分类性能造成的影响,该文对原始训练集使用类别均衡法,即对原始训练集以类为单位进行重新组合,使得重组后的训练集类别分布尽可能均衡,从而可以在均衡的类别上进行训练和分类,以降低在训练过程中对小类别的不公平待遇。在复旦大学语料库上使用类别均衡法,分别用N a ve B ayes和R occh io方法分类,前者的宏平均F1从48.62%提高到了80.99%,后者的宏平均F1从64.58%提高到80.26%,微平均F1从73.99%提高到80.47%。实验结果显示,类别均衡法显著提高了分类性能。
引用
收藏
页码:1802 / 1805
页数:4
相关论文
共 2 条
  • [1] Machine learning in automated text categorization. Sebastiani F. ACM Computing Surveys . 2002
  • [2] Improving text retrieval for the routing problem using latent semantic indexing. Hull D A. Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 1994