基于改进K-means聚类的在线新闻评论主题抽取

被引:16
作者
夏火松
李保国
杨培
机构
[1] 武汉纺织大学管理学院
关键词
在线新闻评论; K-means聚类改进; 主题抽取; 同义词替换; 分词领域词典;
D O I
暂无
中图分类号
G350 [情报学];
学科分类号
1205 ;
摘要
新闻评论反映民众对新闻事件的观点,抽取评论主题,对用户、企业、政府都具有很高的情报分析价值。基于K-means聚类的主题挖掘算法应用到新闻评论中时,在欧氏距离下,如果使用最大距离法选初始点则会聚成一大类。为解决这个问题,论文首先在预处理阶段增加同义词替换和自动构建领域词典的部分,改善了数据稀疏性和高维性。其次,提出了K-means改进算法,用隐藏长评论-最大距离法选初始点,解决了初始点多为离群点的问题,用方差拐点确定K值,解决了预先设定聚类个数的问题,实验发现了先用BW权重选初始点,再用新提出的BW-DF权重聚类的效果最好。最后,将改进算法与原算法的聚类效果比较,实验结果表明,改进算法准确率高,抽取新闻评论主题的效果明显。
引用
收藏
页码:55 / 65
页数:11
相关论文
共 16 条
[1]   基于改进聚类算法的网络舆情分析系统研究 [J].
王旭仁 ;
李娜 ;
何发镁 ;
王彦丽 ;
宋蓓 .
情报学报, 2014, (05) :530-537
[2]   面向中文微博的观点句识别研究 [J].
丁晟春 ;
孟美任 ;
李霄 .
情报学报, 2014, 33 (02) :175-182
[3]   基于微博舆情监测的K-Means算法改进研究 [J].
朱晓峰 ;
陈楚楚 ;
尹婵娟 .
情报理论与实践, 2014, 37 (01) :136-140
[4]   最大距离法选取初始簇中心的K-means文本聚类算法的研究 [J].
翟东海 ;
鱼江 ;
高飞 ;
于磊 ;
丁锋 .
计算机应用研究, 2014, 31 (03) :713-715+719
[5]   面向用户生成内容的短文本聚类算法研究 [J].
赵辉 ;
刘怀亮 .
现代图书情报技术, 2013, (09) :88-92
[6]   基于文本聚类与LDA相融合的微博主题检索模型研究 [J].
唐晓波 ;
房小可 .
情报理论与实践, 2013, (08) :85-90
[7]   基于潜在狄利克雷分配模型的微博主题演化分析 [J].
唐晓波 ;
王洪艳 .
情报学报, 2013, (03) :281-287
[8]   基于潜在语义分析的微博主题挖掘模型研究 [J].
唐晓波 ;
王洪艳 .
图书情报工作, 2012, 56 (24) :114-119
[9]   评价主题挖掘及其倾向性识别 [J].
李芳 ;
何婷婷 ;
宋乐 .
计算机科学, 2012, 39 (06) :159-162
[10]   基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, (10) :1795-1802