网络热点信息发现研究

被引:26
作者
曾依灵
许洪波
机构
[1] 中国科学院计算技术研究所
关键词
热点信息发现; 未登录词识别; 切分词拼接;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
为了有效挖掘海量网络数据中的热点信息,设计了网络热点信息发现算法。基于多级滤噪进行切分词拼接,利用特定的噪声库与多级滤噪策略严格控制拼接过程,挑选合理的收录策略,提取出能够准确反映海量网络数据中热门事件的热点信息串。在TDT国际标准评测语料上算法表现出令人满意的性能。
引用
收藏
页码:141 / 146
页数:6
相关论文
共 2 条