基于微博舆情监测的K-Means算法改进研究

被引:16
作者
朱晓峰
陈楚楚
尹婵娟
机构
[1] 南京工业大学经济与管理学院
关键词
微博; 网络舆情; K-Means算法;
D O I
10.16353/j.cnki.1000-7490.2014.01.009
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
在分析传统K-Means算法局限性的基础上,提出了一种基于文本平均相似度的K-Means算法,通过对每个文本的平均相似度计算和排序,以文本平均相似度值为标准来选择初始聚类中心点。实验证明,改进后的算法,更适合微博文本的特点,聚类精度和聚类稳定性均明显改善,微博舆情监测的质量大幅度提高。
引用
收藏
页码:136 / 140
页数:5
相关论文
共 5 条
  • [1] 一种中文微博新闻话题检测的方法
    郑斐然
    苗夺谦
    张志飞
    高灿
    [J]. 计算机科学, 2012, 39 (01) : 138 - 141
  • [2] 微博舆情监测指标体系研究
    高承实
    荣星
    陈越
    [J]. 情报杂志, 2011, 30 (09) : 66 - 70
  • [3] 基于语义的微博短信息分类
    崔争艳
    [J]. 现代计算机(专业版), 2010, (08) : 18 - 20+24
  • [4] A brief survey of Web data extraction tools
    Laender, AHF
    Ribeiro-Neto, BA
    da Silva, AS
    Teixeira, JS
    [J]. SIGMOD RECORD, 2002, 31 (02) : 84 - 93
  • [5] Short text feature selection for microblog mining .2 Liu Zitao,Yu Wenchao,Chen Wei. CISE . 2010