层次化中文文档分类

被引:38
作者
袁时金
李荣陆
周水庚
胡运发
机构
[1] 复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系,复旦大学计算机与信息技术系上海,上海,上海,上海
关键词
文档分类; 属性选择; 层次分类; 分类器;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
对层次化中文文档分类进行了研究。采用两种途径进行层次化中文文档分类:第一是按照文档类别的层次结构,将一个大的分类问题分化成若干个小的分类问题,用Bayes分类方法分别建立分类器;第二是将层次化分类问题看成是一个更普遍的多类别、多标注分类问题进行求解,分别利用KNN和基于Boosting的分类方法进行层次化中文文档分类。测试结果显示层次化分类比平面分类能够取得更好的分类效果。
引用
收藏
页码:55 / 63
页数:9
相关论文
共 2 条
[1]
中文文献的层次分类方法 [J].
战学刚 ;
林鸿飞 ;
姚天顺 .
中文信息学报, 1999, (06) :20-25
[2]
An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90