大规模语料的频繁模式快速发现算法

被引:4
作者
龚才春
贺敏
陈海强
许洪波
程学旗
机构
[1] 中国科学院计算技术研究所
关键词
频繁模式; 语料划分; 重复串;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M。
引用
收藏
页码:161 / 166
页数:6
相关论文
共 4 条
[1]   基于构词法的网络新词自动识别初探 [J].
郑家恒 ;
李文花 .
山西大学学报(自然科学版), 2002, (02) :115-119
[2]  
基于频繁模式的消息文本聚类研究[D]. 胡吉祥.中国科学院研究生院(计算技术研究所) 2006
[3]   Practical methods for constructing suffix trees [J].
Tian, YY ;
Tata, S ;
Hankins, RA ;
Patel, JM .
VLDB JOURNAL, 2005, 14 (03) :281-299
[4]  
Improving Suffix-array Construction Algorithm with Ap-plications. KAO T H. Gunma University . 2001