基于遗传算法的文档聚类算法的设计与仿真(英文)

被引:4
作者
魏建香 [1 ,2 ]
刘怀 [3 ]
苏新宁 [1 ]
机构
[1] 南京大学信息管理系
[2] 南京人口管理干部学院信息科学系
[3] 南京师范大学电气与自动化工程学院
关键词
文档聚类; 遗传算法; 相似度; 类中心;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
在各种聚类算法中,K-means是一种基于划分的经典算法.但是由于K-means方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之间的部分相似度,设计出更加精确的文档相似度计算公式.在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;适应度函数采用所有类内距离的均方差之和加1的倒数表示,当类内均方差之和越小,则个体的适应度越大,被选择进入下一代的概率也越大.通过选择、交叉和变异等步骤对聚类的中心点进行反复迭代寻优,最终找到最优的类中心点.通过实验仿真,K-means收敛速度快,聚类的平均目标函数大于genetic algorithm(GA)且正确率明显小于GA.本文提出的GA算法的分类正确率能达到98%以上,与传统的K-means方法相比,聚类的准确性更高,说明本文提出的算法是一种行之有效的文档聚类方法.
引用
收藏
页码:432 / 438
页数:7
相关论文
共 6 条
[1]   基于邻域模型的K-means初始聚类中心选择算法 [J].
曹付元 ;
梁吉业 ;
姜广 .
计算机科学, 2008, (11) :181-184
[2]   GML文档结构聚类算法Clu-GML [J].
苗建新 ;
吉根林 .
南京大学学报(自然科学版), 2008, (02) :188-194
[3]   一种用于文本聚类的改进k-means算法 [J].
索红光 ;
王玉伟 .
山东大学学报(理学版), 2008, (01) :60-64
[4]   科学文献的模糊聚类算法 [J].
林春燕 ;
朱东华 .
计算机应用, 2004, (11) :66-67+70
[5]   求解一类非线性规划问题的混合遗传算法 [J].
王登刚 ;
刘迎曦 ;
李守巨 .
上海交通大学学报, 2003, (12) :1953-1956
[6]   浮点数编码的遗传算法及其应用 [J].
张彤 ;
张华 ;
王子才 .
哈尔滨工业大学学报, 2000, (04) :59-61