文本分类系统的评价因素探讨

被引:3
作者
王小华
张国煊
陆蓓
机构
[1] 杭州电子工业学院计算机分院
关键词
文本分类; 分类算法; 分类标准; 分类层次;
D O I
10.13954/j.cnki.hdu.2002.03.003
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在介绍电子文本自动分类系统的基础上 ,分析影响文本分类系统评价的若干因素 ,包括分类算法、测试方法、分类标准、分类标准的理解程度和分类层次等。测试用的分类语料库 (超出 6 0 0 0万汉字 )是由带人工分类标记的公开发表的《解放日报》和《大众日报》近年各类文章组成 ,人工分类标记和文章正文均由第三方提供 ,未作任何修改 ;语料由各类长短不一、风格各异、体裁不同的文章构成。建议建立权威的分类测试语料库和分类标准 ,公正客观地评价各分类系统 ,推进电子文本分类系统的应用。
引用
收藏
页码:11 / 14
页数:4
相关论文
共 6 条
[1]   基于多元统计分析的电子文本自动分类 [J].
王小华 ;
张国煊 .
杭州电子工业学院学报, 1999, (03) :7-10
[2]   中文文本的关键词自动抽取和模糊分类 [J].
何新贵 ;
彭甫阳 .
中文信息学报, 1999, (01) :10-16
[3]   基于特征相关性的汉语文本自动分类模型的研究 [J].
张月杰 ;
姚天顺 .
小型微型计算机系统, 1998, (08) :50-56
[4]   中文文本中抽取特征信息的区域与技术 [J].
刘开瑛 ;
薛翠芳 ;
郑家恒 ;
周晓强 .
中文信息学报, 1998, (02) :2-8
[5]   汉语语料的自动分类 [J].
吴军,王作英,禹锋,王侠 .
中文信息学报, 1995, (04) :25-32
[6]  
Information Extraction as a Basis for High-Precision Text Classification .2 ELLEN R,WENDY L. ACMTransactions on Information Systems . 1994