短文本数据的自动分类

被引:5
作者
宋东风
张志浩
机构
[1] 同济大学计算中心
关键词
文本分类; 短文本; 朴素贝页斯; k近邻;
D O I
10.19414/j.cnki.1005-1228.2007.01.013
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文章以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类算法的特点,在此基础上提出k-NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k-NN算法进行再次分类,并充分利用NB的中间结果供k-NN剪枝时作参考。实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求。
引用
收藏
页码:36 / 38+57 +57
页数:4
相关论文
共 1 条
[1]   一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24