文本分类系统的评价因素探讨

被引：3

作者：

王小华

张国煊

陆蓓

机构：

[1] 杭州电子工业学院计算机分院

来源：

杭州电子工业学院学报 | 2002年 / 03期

关键词：

文本分类; 分类算法; 分类标准; 分类层次;

D O I：

10.13954/j.cnki.hdu.2002.03.003

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

在介绍电子文本自动分类系统的基础上 ,分析影响文本分类系统评价的若干因素 ,包括分类算法、测试方法、分类标准、分类标准的理解程度和分类层次等。测试用的分类语料库 (超出 6 0 0 0万汉字 )是由带人工分类标记的公开发表的《解放日报》和《大众日报》近年各类文章组成 ,人工分类标记和文章正文均由第三方提供 ,未作任何修改 ;语料由各类长短不一、风格各异、体裁不同的文章构成。建议建立权威的分类测试语料库和分类标准 ,公正客观地评价各分类系统 ,推进电子文本分类系统的应用。

引用

页码：11 / 14

页数：4

共 6 条

[1] 基于多元统计分析的电子文本自动分类 [J].