多层文本分类性能评价方法

被引:3
作者
宋胜利
鲍亮
陈平
机构
[1] 西安电子科技大学软件工程研究所
关键词
模式识别; 文本分类; 类别层次; 错误分类分布; 分类模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了准确评价多层文本分类方法,解决传统平面分类评价指标应用到多层分类中的局限性,在研究基于概念树的多层文本分类方法基础上,有效利用多层结构中类别之间的层次关系和"亲疏"关系,提出了一组能够准确描述多层分类性能的扩展评价指标。利用错误分类样本分布定义了错误分类集中度,在评价分类结果的同时能够指导训练样本的选择过程,使得训练样本更具有代表性。通过中文新闻语料的分类实验,证明了扩展评价指标对于多层分类结果的评价更为准确,错误分类集中度有助于训练出更加准确的分类模型。
引用
收藏
页码:1088 / 1093
页数:6
相关论文
共 2 条
[1]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[2]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90