基于EM算法的文本聚类优化研究

被引:2
作者
冯中慧
鲍军鹏
沈钧毅
机构
[1] 西安交通大学电子与信息工程学院
关键词
硬聚类; 软聚类; EM算法; 文本聚类优化模型(TCOM);
D O I
10.13976/j.cnki.xk.2006.05.022
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对现有的文本聚类算法难以取得满意结果的问题,以EM算法为基础,提出能分别描述相似、不相似聚类对的相似性分布以及重要、不重要文档的重要性分布的文本聚类优化模型(text c lustering optim iza-tion model,TCOM).基于该模型,设计一种通过合并不同的文本聚类结果以获取最优性能的方法.实验结果表明,利用该方法同时改善了聚类精度和召回率,其性能优于单独使用现有的硬、软聚类算法.*
引用
收藏
页码:657 / 661
页数:5
相关论文
共 7 条
[1]  
A comparison of docum entclustering techn iques. Steinbach M,Karyp is G,Kumar V. Proceed ings of the 6 th ACM-SIGKDDInternational Conference on Text M in ing . 2000
[2]  
Particle System——A technique for modeling a class of fuzzy objects. Reeves W T. Computer Graphics . 1983
[3]  
Semantic Sequence Kin:A Method of Document Copy Detection[C]. Bao J P,,Shen J Y,Liu X D, et al. // Proceedings of the 8th Pacific-Asia Conference on Knowledge Discovery and Data Mining, Lecture Notes in Artificial Intelligence . 2004
[4]  
The-expectation-maxim ization algorithm. Moon T K. IEEETransactions on S ignal Processing . 1996
[5]  
An evaluation on feature selectionfor text clustering. L iu T,L iu S,Chen Z,et a l. Proceed ings of the 20 th InternationalConference on Mach ine Learn ing . 2003
[6]  
A similarity-based soft clustering algorithm for documents. Lin K-I,Kondadadi R. Processings of the Seventh International Conference on Database Systems for Advanced Applications . 2001
[7]  
Survey of fuzzy clustering algorithms for pattern recognition–Part I. Baraldi A,Blonda P. IEEE Transactions on Systems,Man,and Cybemetics,PartB:Cybemetics . 1999