WEB文本挖掘的聚类分析

被引:0
作者
张兆中
机构
[1] 山东科技大学
关键词
数据挖掘; 文本挖掘; 聚类; 数据集; 贝叶斯方法;
D O I
暂无
年度学位
2005
学位类型
硕士
摘要
数据采集和存储技术的进步导致庞大的数据库日益增多,从这些数据中提取出有价值的信息,成为人们日益关心的问题,而且已经形成了一门学科,成为“数据挖掘”。如果仅涉及到很小的数据集,那么我们就可以仅仅讨论统计学家们所使用的标准数据探测和分析方法了。数据挖掘所分析的经常是庞大的数据集。聚类和分类同是数据挖掘的重要内容。 文本是存储和交换信息的最自然的方式,文本挖掘具有非常重要的现实意义。文本挖掘所要处理的数据规模更大,因而使得许多对数据库中数据挖掘很有效的聚类算法,对于文本挖掘变得不可行。规模的增大,要求算法必须能够增量的执行,因为没有可能将数据一次调入内存处理。另外这对算法的效率也提出了苛刻的要求。同时,Web的文本数据是不断增长的,新的信息类型不断出现。算法必须有能力在不完全重新分析已有数据的情况下,增量处理新的数据,更新聚类结果。 通过对以Web文本数据为代表的高维数据特点的分析,认识到传统的聚类技术在这里面临许多新的困难。本文尝试以概率理论特别是贝叶斯方法为主要手段研究文本聚类。同时研究过程中吸纳了信息论中的一些思想。在大量的实验基础上,提出了两种基于贝叶斯理论和信息论思想的聚类算法。通过数据测试和不同算法的对比分析,算法显示出了较好的性能。
引用
收藏
页数:54
共 11 条
[1]
信息论基础及应用.[M].曲炜;朱诗兵编著;.清华大学出版社.2005,
[2]
信息论与编码理论.[M].(美)RobertJ.Mceliece著;李斗等译;.电子工业出版社.2004,
[3]
数据挖掘实践.[M].(美)OliviaParrRud著;朱扬勇等译;.机械工业出版社.2003,
[4]
统计学方法与数据分析引论.[M].(美)R.L.奥特(R.LyamnOtt);M.朗格内克(MichaelLongnecker)著;张忠占等译;.科学出版社.2003,
[5]
数据挖掘与知识发现.[M].李雄飞;李军编著;.高等教育出版社.2003,
[6]
数据挖掘原理与算法.[M].邵峰晶;于忠清编著;.中国水利水电出版社.2003,
[7]
数据挖掘技术.[M].陈文伟等著;.北京工业大学出版社.2002,
[8]
信息论与编码.[M].曹雪虹;张宗橙编;.北京邮电大学出版社.2001,
[9]
信息论基础.[M].傅祖芸编;.电子工业出版社.1986,
[10]
概率引论及统计应用.[M].[美]迈耶(Meyer;P·L·) 著;潘考瑞 译.高等教育出版社.1986,