基于Word2vec的微博短文本分类研究

被引:52
作者
张谦
高章敏
刘嘉勇
机构
[1] 四川大学电子信息学院
关键词
短文本分类; Word2vec; TFIDF; 支持向量机;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
随着微博等社会化媒体的信息量急剧膨胀,人们迫切需要实现这些信息的自动分类处理,以帮助用户快速查找所需信息和过滤垃圾信息。针对传统文本分类模型存在的特征维数灾难、无语义特征等问题,文章基于Word2vec模型对微博短文本进行了分类研究。鉴于Word2vec模型无法区分文本中词汇的重要程度,进一步引入TFIDF对Word2vec词向量进行加权,实现加权的Word2vec分类模型。最后合并加权Word2vec和TFIDF两种模型,实验结果表明合并后模型分类准确率高于加权Word2vec模型和使用TFIDF的传统文本分类模型。
引用
收藏
页码:57 / 62
页数:6
相关论文
共 18 条
[1]  
基于LDA的微博短文本分类技术的研究与实现.[D].方东昊.东北大学.2011, 03
[2]   Ranking learning algorithms: Using IBL and meta-learning on accuracy and time results [J].
Brazdil, PB ;
Soares, C ;
Da Costa, JP .
MACHINE LEARNING, 2003, 50 (03) :251-277
[3]  
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[4]   敏感话题发现中的增量型文本聚类模型 [J].
张越今 ;
丁丁 .
信息网络安全, 2015, (09) :170-174
[5]   基于用户聚类的热门微博分类研究 [J].
张士豪 ;
顾益军 ;
张俊豪 .
信息网络安全, 2015, (07) :84-89
[6]   基于LDA特征扩展的短文本分类 [J].
吕超镇 ;
姬东鸿 ;
吴飞飞 .
计算机工程与应用 , 2015, (04) :123-127
[7]   一种基于维基百科的中文短文本分类算法 [J].
赵辉 ;
刘怀亮 .
图书情报工作, 2013, 57 (11) :120-124
[8]   基于维基百科的中文短文本分类研究 [J].
范云杰 ;
刘怀亮 .
现代图书情报技术, 2012, (03) :47-52
[9]   一种基于WordNet的短文本语义相似性算法 [J].
翟延冬 ;
王康平 ;
张东娜 ;
黄岚 ;
周春光 .
电子学报, 2012, 40 (03) :617-620
[10]   基于语义的微博短信息分类 [J].
崔争艳 .
现代计算机(专业版), 2010, (08) :18-20+24