基于最大熵模型的中文文本层次分类方法

被引:3
作者
肖雪
机构
[1] 重庆电子工程职业学院
关键词
文本分类; 层次分类; 特征选择; 最大熵模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对文本信息海量增加的现状,快速、准确、全面地获取有用信息的大规模信息处理应用技术越来越受到关注。本文将中文文本分类的类别体系构建为层次结构,并把最大熵模型引入中文文本的层次分类,该模型用于得到未知事件分布的最大熵。实验证明,最大熵模型方法的层次分类性能在很多时候优于平面分类,是一种有效的中文文本分类方法。
引用
收藏
页码:36 / 38
页数:3
相关论文
共 7 条
  • [1] A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. Joachims T. Proceedings of the 14th International Conference on Machine Learning . 1997
  • [2] An Evaluation of Statistical Approaches to Text Categorization[J] . Yiming Yang. &nbspInformation Retrieval . 1999 (1)
  • [3] A Comparison of Category Search Strategies. IWAYAMA M. ACM Conference on Research and Development on Information . 1995
  • [4] Automated Text Categorization Using Support Vector Machine. J.T.Y.Kwok. Proceedings of the Int.Conf.on N eural Information Processing,1998 . 1998
  • [5] Using maximum entropy for text classification. K. Nigam,J. Lafferty,A. McCallum. Proceedings of the IJCAI-99 Workshop on Information Filtering . 1999
  • [6] 多层文本分类性能评价方法
    宋胜利
    鲍亮
    陈平
    [J]. 系统工程与电子技术, 2010, 32 (05) : 1088 - 1093
  • [7] 文本分类中的特征降维方法研究
    张玉芳
    万斌候
    熊忠阳
    [J]. 计算机应用研究, 2012, 29 (07) : 2541 - 2543