文本自动分类技术研究综述

被引:32
作者
庞观松 [1 ]
蒋盛益 [2 ]
机构
[1] 广东外语外贸大学国际工商管理学院
[2] 广东外语外贸大学信息学院
基金
广东省自然科学基金;
关键词
自动分类; 文本分类; 文本处理; 综述;
D O I
10.16353/j.cnki.1000-7490.2012.02.009
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。
引用
收藏
页码:123 / 128
页数:6
相关论文
共 8 条
[1]   面向短文本的动态组合分类算法 [J].
闫瑞 ;
曹先彬 ;
李凯 .
电子学报, 2009, 37 (05) :1019-1024
[2]   kNN文本分类器类偏斜问题的一种处理对策 [J].
郝秀兰 ;
陶晓鹏 ;
徐和祥 ;
胡运发 .
计算机研究与发展, 2009, 46 (01) :52-61
[3]   基于区分类别能力的高性能特征选择方法 [J].
徐燕 ;
李锦涛 ;
王斌 ;
孙春明 .
软件学报, 2008, (01) :82-89
[4]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[5]   基于类别特征域的文本分类特征选择方法 [J].
赵世奇 ;
张宇 ;
刘挺 ;
陈毅恒 ;
黄永光 ;
李生 .
中文信息学报, 2005, (06) :23-29
[6]   一种高效的用于文本聚类的无监督特征选择算法 [J].
刘涛 ;
吴功宜 ;
陈正 ;
不详 .
计算机研究与发展 , 2005, (03) :381-386
[7]   基于密度的kNN文本分类器训练样本裁剪方法 [J].
李荣陆 ;
胡运发 .
计算机研究与发展, 2004, (04) :539-545
[8]   Using kNN model for automatic text categorization [J].
Guo, GD ;
Wang, H ;
Bell, D ;
Bi, YX ;
Greer, K .
SOFT COMPUTING, 2006, 10 (05) :423-430