流量内容词语相关度的网络热点话题提取

被引:26
作者
周亚东
孙钦东
管晓宏
李卫
陶敬
机构
[1] 西安交通大学智能网络与网络安全教育部重点实验室
关键词
网络热点话题; 流量内容; 网络舆情分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到16.7%,为网络热点话题传播特性研究提供了基础.与Web挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源,能更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况.
引用
收藏
页码:1142 / 1145+1150 +1150
页数:5
相关论文
共 4 条
  • [1] 话题识别与跟踪中的层次化话题识别技术研究
    于满泉
    骆卫华
    许洪波
    白硕
    [J]. 计算机研究与发展, 2006, (03) : 489 - 495
  • [2] Web数据挖掘技术及实现
    王泽彬
    金飞
    李夏
    王冠
    [J]. 哈尔滨工业大学学报, 2005, (10)
  • [3] 话题识别与跟踪研究
    李保利
    俞士汶
    不详
    [J]. 计算机工程与应用 , 2003, (17) : 7 - 10+109
  • [4] Observing TCP dynamics in real networks[J] . Jeffrey C. Mogul.ACM SIGCOMM Computer Communication Review . 1992 (4)