大规模语料的频繁模式快速发现算法

被引：4

作者：

龚才春

贺敏

陈海强

许洪波

程学旗

机构：

[1] 中国科学院计算技术研究所

来源：

通信学报 | 2007年 / 12期

关键词：

频繁模式; 语料划分; 重复串;

D O I：

暂无

中图分类号：

TP301.6 [算法理论];

学科分类号：

081202 ;

摘要：

提出了一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6GB,单机平均每秒处理文本语料3.28M。

引用

页码：161 / 166

页数：6

共 4 条

[1] 基于构词法的网络新词自动识别初探 [J].

郑家恒 ;

李文花 .

山西大学学报(自然科学版), 2002, (02) :115-119

[2]

基于频繁模式的消息文本聚类研究[D]. 胡吉祥.中国科学院研究生院（计算技术研究所） 2006

[3] Practical methods for constructing suffix trees [J].

Tian, YY ;

Tata, S ;

Hankins, RA ;

Patel, JM .

VLDB JOURNAL, 2005, 14 (03) :281-299

[4]

Improving Suffix-array Construction Algorithm with Ap-plications. KAO T H. Gunma University . 2001

← 1 →