面向离散文本舆情分析的分聚类方案

被引:4
作者
李海燕 [1 ]
李生红 [1 ,2 ]
张月国 [1 ,2 ]
机构
[1] 上海交通大学电子工程系
[2] 上海交通大学信息安全学院
关键词
离散文本; 特征概念网; 小生境遗传算法; KNN分类; 舆情分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
离散文本已经成为一种占据重要地位的舆情信息表现形式,根据离散文本的特点,提出基于特征概念网的离散文本舆情信息的分聚类框架,在此基础上给出分聚类方案。在聚类算法中,运用了遗传算法的全局并行搜索能力、k-means的高效局部聚类能力和小生境的保持种群多样性抑制漂移能力;在分类算法中,先将训练文本库进行类内聚类成子类,对子类构建特征概念网以生成替代该子类的文本,再用KNN算法进行分类。最后结合舆情分析进一步提出了可用的改进方案。
引用
收藏
页码:65 / 67
页数:3
相关论文
共 6 条
[1]   基于概念的文本表示模型 [J].
陈龙 ;
范瑞霞 ;
高琪 .
计算机工程与应用, 2008, (20) :162-164
[2]   一种针对不良主题的文本过滤方法 [J].
孙登林 ;
李生红 ;
荆涛 ;
刘功申 .
信息安全与通信保密, 2008, (02) :92-93+96
[3]   隐性语义的SVM文本分类模型 [J].
包学超 ;
孙强 ;
李生红 .
信息安全与通信保密, 2005, (05) :29-31
[4]  
基于聚类方法的小生境遗传算法研究[D]. 周伟.湖南大学 2008
[5]  
基于语义中心的KNN文本分类算法研究[D]. 魏建.南京理工大学 2007
[6]  
基于遗传算法的文本分类及聚类研究[M]. 科学出版社 , 戴文华, 2008