优先关联的Web日志数据逼真生成算法

被引:7
作者
丘志鹏
肖如良
张锐
机构
[1] 福建师范大学软件学院
[2] 福建省公共服务大数据挖掘与应用工程研究中心
关键词
字段关联; 数据生成; MIC系数; 重尾;
D O I
10.15888/j.cnki.csa.005662
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
字段关联的构建方法是Web数据逼真生成中的困难问题.提出一种基于MIC的字段优先关联的Web数据逼真生成算法.该算法与现有的方法完全不同:首先,提取真实Web日志数据集中相应字段间的MIC系数;然后,结合字段的重尾特性,采用SE分布对字段的重尾性进行建模;最后,建立字段关联模型,模拟出真实数据集中的字段间依赖性,从而逼真生成目标数据集.实验表明,生成的数据集能够保持合理的字段间的均衡性以及节点间的相似性.
引用
收藏
页码:126 / 133
页数:8
相关论文
共 3 条
[1]
UpSizeR: Synthetically scaling an empirical relational database [J].
Tay, Y. C. ;
Dai, Bing Tian ;
Wang, Daniel T. ;
Sun, Eldora Y. ;
Lin, Yong ;
Lin, Yuting .
INFORMATION SYSTEMS, 2013, 38 (08) :1168-1183
[2]
SQL Data Generator.[J].Campbell; Michael K.SQL Server Magazine.2009, 3
[3]
ProWGen: a synthetic workload generation tool for simulation evaluation of web proxy caches.[J].Mudashiru Busari;Carey Williamson.Computer Networks.2001, 6