学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
面向变异短文本的快速聚类算法
被引:16
作者
:
黄永光
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学信息检索实验室
黄永光
论文数:
引用数:
h-index:
机构:
刘挺
论文数:
引用数:
h-index:
机构:
车万翔
胡晓光
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学信息检索实验室
胡晓光
机构
:
[1]
哈尔滨工业大学信息检索实验室
来源
:
中文信息学报
|
2007年
/ 02期
关键词
:
人工智能;
模式识别;
检索;
特征串;
聚类;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
本文主要针对近些年来大量出现在聊天语言中和手机短信中的短文本,提出了一种快速有效的聚类算法。这些短文本由于具有不规范性和大量相似性等特点,我们称其为变异短文本。本文在原有的网页去重算法[1~3]的基础上,根据变异短文本的特点,采取了特定的特征串抽取方法,并融合了压缩编码的思想,从而加快了处理速度。实验表明,基于该算法的聚类系统对于大量的变异短文本处理速度可以达到每小时百万级以上,并且有比较高的准确率。
引用
收藏
页码:63 / 68
页数:6
相关论文
共 3 条
[1]
基于主题的Web文档聚类研究
孙学刚
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
孙学刚
陈群秀
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
陈群秀
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
马亮
[J].
中文信息学报,
2003,
(03)
: 21
-
26
[2]
基于特征串的大规模中文网页快速去重算法研究
吴平博
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
吴平博
陈群秀
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
陈群秀
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
马亮
[J].
中文信息学报,
2003,
(02)
: 28
-
35
[3]
Modern Information Retrieval .2 Ricardo Baeza-Yates,Berthier Ribeiro-Neto. ADDISON WESLEY . 2004
←
1
→
共 3 条
[1]
基于主题的Web文档聚类研究
孙学刚
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
孙学刚
陈群秀
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
陈群秀
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室清华大学计算机科学与技术系
马亮
[J].
中文信息学报,
2003,
(03)
: 21
-
26
[2]
基于特征串的大规模中文网页快速去重算法研究
吴平博
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
吴平博
陈群秀
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
陈群秀
马亮
论文数:
0
引用数:
0
h-index:
0
机构:
智能技术与系统国家重点实验室
马亮
[J].
中文信息学报,
2003,
(02)
: 28
-
35
[3]
Modern Information Retrieval .2 Ricardo Baeza-Yates,Berthier Ribeiro-Neto. ADDISON WESLEY . 2004
←
1
→