共 1 条
短文本数据的自动分类
被引:5
作者:
宋东风
张志浩
机构:
[1] 同济大学计算中心
来源:
关键词:
文本分类;
短文本;
朴素贝页斯;
k近邻;
D O I:
10.19414/j.cnki.1005-1228.2007.01.013
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
文章以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类算法的特点,在此基础上提出k-NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k-NN算法进行再次分类,并充分利用NB的中间结果供k-NN剪枝时作参考。实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求。
引用
收藏
页码:36 / 38+57
+57
页数:4
相关论文