基于LDA高频词扩展的中文短文本分类

被引:33
作者
胡勇军 [1 ]
江嘉欣 [2 ]
常会友 [3 ]
机构
[1] 中山大学管理学院
[2] 中山大学信息科学与技术学院
[3] 中山大学软件学院
关键词
短文本分类; 高频词; LDA; 特征扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法。
引用
收藏
页码:42 / 48
页数:7
相关论文
共 2 条
[1]  
Statistical topic models for multi-label document classification[J] . Timothy Rubin,America Chambers,Padhraic Smyth,Mark Steyvers.Machine Learning . 2012 (1)
[2]   Short text similarity based on probabilistic topics [J].
Quan, Xiaojun ;
Liu, Gang ;
Lu, Zhi ;
Ni, Xingliang ;
Wenyin, Liu .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 25 (03) :473-491