面向变异短文本的快速聚类算法

被引:16
作者
黄永光
刘挺
车万翔
胡晓光
机构
[1] 哈尔滨工业大学信息检索实验室
关键词
人工智能; 模式识别; 检索; 特征串; 聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本文主要针对近些年来大量出现在聊天语言中和手机短信中的短文本,提出了一种快速有效的聚类算法。这些短文本由于具有不规范性和大量相似性等特点,我们称其为变异短文本。本文在原有的网页去重算法[1~3]的基础上,根据变异短文本的特点,采取了特定的特征串抽取方法,并融合了压缩编码的思想,从而加快了处理速度。实验表明,基于该算法的聚类系统对于大量的变异短文本处理速度可以达到每小时百万级以上,并且有比较高的准确率。
引用
收藏
页码:63 / 68
页数:6
相关论文
共 3 条
  • [1] 基于主题的Web文档聚类研究
    孙学刚
    陈群秀
    马亮
    [J]. 中文信息学报, 2003, (03) : 21 - 26
  • [2] 基于特征串的大规模中文网页快速去重算法研究
    吴平博
    陈群秀
    马亮
    [J]. 中文信息学报, 2003, (02) : 28 - 35
  • [3] Modern Information Retrieval .2 Ricardo Baeza-Yates,Berthier Ribeiro-Neto. ADDISON WESLEY . 2004