基于微博舆情监测的K-Means算法改进研究

被引：16

作者：

朱晓峰

陈楚楚

尹婵娟

机构：

[1] 南京工业大学经济与管理学院

来源：

关键词：

微博; 网络舆情; K-Means算法;

D O I：

10.16353/j.cnki.1000-7490.2014.01.009

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

在分析传统K-Means算法局限性的基础上,提出了一种基于文本平均相似度的K-Means算法,通过对每个文本的平均相似度计算和排序,以文本平均相似度值为标准来选择初始聚类中心点。实验证明,改进后的算法,更适合微博文本的特点,聚类精度和聚类稳定性均明显改善,微博舆情监测的质量大幅度提高。

引用

页码：136 / 140

页数：5

共 5 条

[1] 一种中文微博新闻话题检测的方法
郑斐然
苗夺谦
张志飞
高灿
[J]. 计算机科学, 2012, 39 (01) : 138 - 141
[2] 微博舆情监测指标体系研究
高承实
荣星
陈越
[J]. 情报杂志, 2011, 30 (09) : 66 - 70
[3] 基于语义的微博短信息分类
崔争艳
[J]. 现代计算机(专业版), 2010, (08) : 18 - 20+24
[4] A brief survey of Web data extraction tools
Laender, AHF
Ribeiro-Neto, BA
da Silva, AS
Teixeira, JS
[J]. SIGMOD RECORD, 2002, 31 (02) : 84 - 93
[5] Short text feature selection for microblog mining .2 Liu Zitao,Yu Wenchao,Chen Wei. CISE . 2010