多段支持度数据挖掘算法研究

被引:20
作者
李雄飞
苑森淼
董立岩
全勃
机构
[1] 吉林大学计算机学院!长春
关键词
数据挖掘; 相联规则; 算法; 频繁项集; 多段支持度;
D O I
暂无
中图分类号
TP311.1 [程序设计];
学科分类号
摘要
在基于相联规则的数据挖掘算法中 ,Apriori等算法最为著名 .它分为两个主要步骤 :(1)通过多趟扫描数据库求解出频繁项集 ;(2 )利用频繁项集生成规则 .随后的许多算法都沿用 Apriori中“频繁项集的子集必为频繁项集”的思想 ,在频繁项集 Lk- 1 上进行 JOIN运算构成潜在 k项集 Ck.由于数据库和 Ck 的规模较大 ,需要相当大的计算量才能生成频繁项集 .Apriori Tid算法给每个事务增加了一个唯一标识 Tid ,其特点是只扫描一趟数据库 ,其余趟扫描 (如第 k趟扫描 )均在相应的数据集 Ck上进行 .由于数据规模改变不大 ,各算法的效率差别并不明显 .该文提出分段计算支持度的思想 ,是把一个项集的支持度分段计算 ,每一个段记录该项集在相应规模事务中出现的频度 ,从而构成一个支持度向量 .由于有了项集的多段支持度 ,可以推测出该项集能否包含在更大规模的频繁项集中 ,采用这种算法既提高了在扫描数据库过程中的信息获取率 ,又能及时剔除超集不是频繁项集的项集 ,进一步缩减了潜在项集的规模 .在数据集扫描过程中 ,按文中定理 1的思想调整数据集 ,达到提高频繁项集生成效率的目的
引用
收藏
页码:661 / 665
页数:5
相关论文
共 5 条
  • [1] Mining the most interesting rules. Bayardo R, Agrawal R. In:Proc KDD-99, San Diego . 1999
  • [2] FastDiscovery of Association Rules, Advances inKnowledge Discovery and Data Mining, Ed. Agrawal Rakesh, Mannila Heikki, Toivonen Hannu, Inkeri Verkamo A. . 1996
  • [3] Set -oriented mining of association rules. Houtsma M, Swami A. . 1993
  • [4] Fast algorithms for mining association rules. Agrawal R, Srikant R. In: Proc 20th VLDB Conference, Santiago, Chile . 1994
  • [5] Mining association rules between sets of items in large databases.In: Proc ACM SIGMOD Conference on Management of Data. Agrawal R, Imielinski T, Swami A. Washington D C . 1993