基于随机森林算法的网络舆情文本信息分类方法研究

被引:6
作者
吴坚 [1 ,2 ]
沙晶 [3 ]
机构
[1] 浙江大学计算机学院
[2] 浙江省公安厅网警总队
[3] 公安部第三研究所
关键词
网络舆情文本; 随机森林算法; 文档决策树; 文档分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
面对海量增长的互联网舆情信息,对这些舆情文本信息进行分类成为一项非常有意义的任务。首先,文章给出了文本文档的表示模型及特征选择函数的选取。然后,分析了随机森林算法在分类学习算法中的特点,提出了通过构建一系列的文档决策树来完成文档所属类别的判定。在实验中,收集了大量的网络媒体语料,并设定了训练集和测试集,通过对比测试得到了常见算法(包括k NN、SMO、SVM)与本算法RF的对比量化性能数据,证明了本文提出的算法具有较好的综合分类率和分类稳定性。
引用
收藏
页码:36 / 40
页数:5
相关论文
共 10 条
[1]   我国政府应对网络舆情的现状及对策研究——基于33件网络舆情典型案例分析 [J].
彭辉 ;
姚颉靖 .
北京交通大学学报(社会科学版), 2014, 13 (03) :102-110
[2]   公共治理视域下中国网络舆情危机及应对研究 [J].
徐厌平 ;
邵梦洁 .
求索 , 2013, (11) :250-252
[3]   基于语义的中文网页检索 [J].
余一骄 ;
刘芹 .
计算机科学, 2012, 39 (08) :79-87
[4]   国内网络舆情研究的回顾与展望 [J].
许鑫 ;
章成志 ;
李雯静 .
情报理论与实践, 2009, 32 (03) :115-120
[5]   浅析突发事件的特征、分类及意义 [J].
袁辛奋 ;
胡子林 .
科技与管理, 2005, (02) :23-25
[6]  
基于语义统计分析的网络舆情挖掘技术研究[D]. 万源.武汉理工大学. 2012
[7]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[8]  
Feature selection, perceptron learning, and a usability case study for text categorization [J] . Hwee Tou Ng,Wei Boon Goh,Kok Leong Low.&nbsp&nbspACM SIGIR Forum . 1997 (SI)
[9]   A PROBABILISTIC LEARNING APPROACH FOR DOCUMENT INDEXING [J].
FUHR, N ;
BUCKLEY, C .
ACM TRANSACTIONS ON INFORMATION SYSTEMS, 1991, 9 (03) :223-248
[10]  
Exploring Feature Selection and Support Vector Machine in Text Categorization .2 Abdul-Rahman S. IEEE 16th International Conference on Computational Science and Engineering . 2013