改进的OPTICS算法及其在文本聚类中的应用

被引:111
作者
曾依灵
许洪波
白硕
机构
[1] 中国科学院计算技术研究所智能安全中心
关键词
计算机应用; 中文信息处理; OPTICS算法; 密度聚类; 文本挖掘;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
080201 [机械制造及其自动化];
摘要
基于密度的OPTICS聚类算法以可视化的结果输出方式直观呈现语料结构,但由于其结果组织策略在处理稀疏点时的局限性,算法实际性能未能得到充分发挥。本文针对此缺陷提出一种有效的结果重组织策略以辅助稀疏点的重新定位,并针对文本领域的特点改变距离度量方法,形成了OPTICS-Plus文本聚类算法。在真实文本分类语料上的实验表明,我们的结果重组织策略能够辅助算法产生更为清晰反映语料结构的可达图,与K-means算法的比较则证实了OPTICS-Plus具有较为良好的聚类性能。
引用
收藏
页码:51 / 55+60 +60
页数:6
相关论文
共 3 条
[1]
话题识别与跟踪研究 [J].
李保利 ;
俞士汶 .
计算机工程与应用, 2003, (17) :7-10+109
[2]
基于关联规则的Web文档聚类算法 [J].
宋擒豹 ;
沈钧毅 .
软件学报, 2002, (03) :417-423
[3]
文本聚类分析效果评价及文本表示研究 [D]. 
周昭涛 .
中国科学院研究生院(计算技术研究所),
2005