基于多次过滤的TopN统计算法

被引:2
作者
张军
杨家海
王继龙
机构
[1] 清华大学信息网络工程研究中心
关键词
TopN统计; 网络测量; 多次过滤; 流量统计;
D O I
10.16511/j.cnki.qhdxxb.2006.04.040
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
为了解决传统T opN统计算法性能远远落后于实际需求的矛盾,该文针对T opN统计特征进行研究,并提出一种基于多次过滤的T opN统计算法M F-T opN。该算法首先从原始数据集中随机采样,得到k×N个元素的采样集合,再从该采样集合中查找从大到小的第N个元素;利用此记录作为阈值,对原始数据集进行过滤,淘汰掉低于该阈值的元素;重复上述操作,直到剩余的数据元素个数小于k×N为止。最后对剩余的数据元素进行排序,输出前N个。理论分析和实验结果证明M F-T opN在时间性能上比传统的T opN算法(如基于堆的排序算法)提高了50%左右。
引用
收藏
页码:604 / 608
页数:5
相关论文
empty
未找到相关数据