LDA和KNN相结合的帖子热度预测算法

被引:7
作者
王卫姣 [1 ]
陈黎 [1 ]
王亚强 [1 ]
聂恩伦 [1 ]
何建英 [2 ]
金晖 [3 ]
于中华 [1 ]
机构
[1] 四川大学计算机学院
[2] 四川省军区军训办公室
[3] 华西第二医院信息管理部
基金
浙江省自然科学基金;
关键词
网络舆情; 潜在狄利克雷分配; K近邻; 帖子热度预测; 相似性;
D O I
暂无
中图分类号
TP393.09 []; TP391.1 [文字信息处理];
学科分类号
080402 ;
摘要
随着互联网的快速发展,网络舆情对社会的影响与日俱增.对互联网上网民产生的海量文本内容进行快速准确的分析,以及在此基础上捕捉网络舆情,并对其发展趋势进行预测,对社会经济发展无疑具有重要意义.为此,本文研究了论坛中帖子的热度预测问题,针对现有算法在度量帖子内容相似性时仅仅考虑字面上的相似性,未涉及语义层面,并且未考虑发帖人的特定喜好等不足,提出了LDA(潜在狄利克雷分配)与KNN(K近邻)相结合的热度预测算法,该算法利用LDA挖掘帖子表面文本隐藏的主题信息和用户感兴趣的主题信息,在概念层面上度量帖子之间的相似性,在此基础上基于KNN算法对帖子的热度进行预测.在两组数据集的实验结果表明,所提出的算法在预测准确率方面明显优于相关工作中的方法,平均准确率分别提高了4.34%和2.52%.
引用
收藏
页码:467 / 473
页数:7
相关论文
共 12 条
  • [1] 基于小波多尺度的网络论坛话题热度趋势预测
    张虹
    赵兵
    钟华
    [J]. 计算机技术与发展, 2009, 19 (04) : 76 - 79
  • [2] 国内网络舆情研究的回顾与展望
    许鑫
    章成志
    李雯静
    [J]. 情报理论与实践, 2009, 32 (03) : 115 - 120
  • [3] 互联网内容及舆情深度分析模式
    谢海光
    陈中润
    [J]. 中国青年政治学院学报 , 2006, (03) : 95 - 100
  • [4] Exploiting latent information to predict diffusions of novel topics on social networks. Kuo T T,Hung S C,Lin W S. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics . 2012
  • [5] Latent Dirichlet allocation. Blei D M,Ng A Y,Jordan M I. Journal of Machine Learning Research . 2003
  • [6] 基于K近邻的新话题热度预测算法
    聂恩伦
    陈黎
    王亚强
    秦湘清
    金宇
    于中华
    [J]. 计算机科学, 2012, 39(S1) (S1) : 257 - 260
  • [7] 基于BBS的热点话题发现与态势预测技术的研究
    卢珺珈
    张宏莉
    张玥
    [J]. 智能计算机与应用, 2012, 2 (02) : 1 - 5
  • [8] LDA模型在话题追踪中的应用
    张晓艳
    王挺
    梁晓波
    [J]. 计算机科学, 2011, 38(S1) (S1) : 136 - 139+152
  • [9] Web舆情的长期趋势预测方法
    高辉
    王沙沙
    傅彦
    [J]. 电子科技大学学报 , 2011, (03) : 440 - 445
  • [10] 网络舆情预测模型与平台的研究[D]. 张珏.北京交通大学 2009