无重复投影数据库扫描的序列模式挖掘算法

被引:17
作者
张坤
朱扬勇
机构
[1] 复旦大学计算机与信息技术系
关键词
序列模式挖掘; 投影数据库; 前缀树; 单向杂凑函数;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降.算法SPMDS通过对投影数据库的伪投影做单项杂凑函数,如MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,并采用一些必要条件简化投影数据库的搜索,进而提高算法的性能.实验和分析都表明SPMDS性能优于PrefixSpan.
引用
收藏
页码:126 / 132
页数:7
相关论文
共 3 条
  • [1] SPADE: An Efficient Algorithm for Mining Frequent Sequences[J] . Mohammed J. Zaki.Machine Learning . 2001 (1)
  • [2] Access patterns efficient-ly from Weblogs .2 J Pei,J Han,B Mortazavi-Asl,et al. Proc of the4th Pacific-Asia Confer-ence(PAKDD2000) . 1996
  • [3] Fast discovery of sequential patterns through memoryindexing and database partitioning .2 M Y Lin,S Y Lee. Journal of Information Science and Engineering . 2005