基于改进卡方统计的微博特征提取方法

被引:57
作者
徐明 [1 ]
高翔 [2 ]
许志刚 [2 ]
刘磊 [2 ]
机构
[1] 北京工业大学现代教育技术中心
[2] 北京工业大学数理学院
基金
北京市自然科学基金;
关键词
微博分类; 卡方统计量; 特征选择; 权值计算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
通过对微博文本特征信息的分析与研究,提出一种基于改进卡方统计的微博特征提取方法。扩充微博信息分类特征,在传统的卡方统计量的基础上,引入了频度等因素,改进特征选择方法;在传统的特征项权值计算的基础上,提出了新的改进卡方统计量的方法,改进权重计算效果。对上述方法利用经典KNN和SVM算法进行了测试,实验结果表明该方法提高了微博信息分类的准确率。
引用
收藏
页码:113 / 117+142 +142
页数:6
相关论文
共 9 条
[1]
An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90
[2]
集合CHI与IG的特征选择方法 [J].
王光 ;
邱云飞 ;
史庆伟 .
计算机应用研究, 2012, 29 (07) :2454-2456
[3]
基于机器学习的中文微博情感分类实证研究 [J].
刘志明 ;
刘鲁 .
计算机工程与应用, 2012, 48 (01) :1-4
[4]
文本分类中改进型CHI特征选择方法的研究 [J].
裴英博 ;
刘晓霞 .
计算机工程与应用, 2011, 47 (04) :128-130+194
[5]
大规模短文本的不完全聚类 [J].
彭泽映 ;
俞晓明 ;
许洪波 ;
刘春阳 .
中文信息学报, 2011, 25 (01) :54-59
[6]
基于语义的微博短信息分类 [J].
崔争艳 .
现代计算机(专业版), 2010, (08) :18-20+24
[7]
改进的χ统计文本特征选择方法 [J].
肖婷 ;
唐雁 .
计算机工程与应用, 2009, (14) :136-137+140
[8]
基于χ2统计的文本分类特征选择方法的研究 [J].
熊忠阳 ;
张鹏招 ;
张玉芳 .
计算机应用, 2008, (02) :513-514+518
[9]
面向变异短文本的快速聚类算法 [J].
黄永光 ;
刘挺 ;
车万翔 ;
胡晓光 .
中文信息学报, 2007, (02) :63-68