基于改进的TF-IDF权重的短文本分类算法

被引:13
作者
杨彬 [1 ]
韩庆文 [1 ]
雷敏 [2 ]
张亚鹏 [2 ]
刘向国 [2 ]
杨亚强 [2 ]
马雪峰 [2 ]
机构
[1] 重庆大学通信工程学院
[2] 重庆阿尔法碳索科技有限公司
关键词
短文本; TF-IDF权重; 特征扩展;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-IDF权重的短文本分类算法被提出。该算法通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权,使得文本集的权值方差增大。与直接对短文本进行扩展的算法相比,该算法具有更快的分类速度。
引用
收藏
页码:108 / 113
页数:6
相关论文
共 6 条
[1]  
基于短文本的分类算法研究.[D].徐易.上海交通大学.2010, 10
[2]   基于词矢量相似度的短文本分类 [J].
马成龙 ;
姜亚松 ;
李艳玲 ;
张艳 ;
颜永红 .
山东大学学报(理学版), 2014, 49 (12) :18-22+35
[3]   基于主题本体扩展特征的短文本分类 [J].
湛燕 ;
陈昊 .
河北大学学报(自然科学版), 2014, 34 (03) :307-311
[4]  
A statistics-based approach to incrementally update inverted files.[J].Wann-Yun Shieh;Chung-Ping Chung.Information Processing and Management.2003, 2
[5]   Information retrieval on the Web [J].
Kobayashi, M ;
Takeda, K .
ACM COMPUTING SURVEYS, 2000, 32 (02) :144-173
[6]  
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11