K-近邻、K-均值及其在文本分类中的应用

被引:0
作者
湛燕
机构
[1] 河北大学
关键词
K-近邻; K-均值; 特征权; 扩张能力; 文本挖掘;
D O I
暂无
年度学位
2003
学位类型
硕士
摘要
K-均值(K-means)算法聚类的结果依赖于距离度量的选取。传统的K-均值算法选择的相似性度量通常是欧几里德距离的倒数,这种距离通常涉及所有的特征。在距离公式中引入一些特征权参数后,其聚类结果将依赖于这些权值,从而可以通过调整这些权值来优化聚类效果。由于K-均值算法是迭代算法,很难直接确定其权值以优化聚类结果,因此提出了一种间接的学习权值算法以改进聚类结果。从数学意义上讲,这种权值学习相当于欧氏空间中对一组点进行了一个线性变换。 针对K值的学习,本文初步使用了遗传算法选择较优的K值,同时总结了一种聚类有效性函数,数值实验证实了其有效性,旨在指导应用于K-近邻分类中;然后还将“扩张能力”的概念引入K-近邻算法,根据训练集例子不同的覆盖能力,删除冗余样本,得到数量较小同时代表类别情况又比较完全的新的训练集,从而降低查找近邻复杂性。 基于以上的研究思想,本文提出了近邻算法在文本分类中的应用,对英文数据库Reuters-21578实现了分词以及分类的过程,并将特征权值的学习思想应用在文本分类中,同时对中文文本的分词做了初步分析与实验。
引用
收藏
页数:55
共 28 条
[1]
数据聚类技术的研究 [J].
张蓉 .
计算机工程与应用 , 2002, (16) :145-147
[2]
一种基于近邻搜索的快速k-近邻分类算法 [J].
王壮 ;
胡卫东 ;
郁文贤 ;
庄钊文 .
系统工程与电子技术, 2002, (04) :100-102
[3]
基于样本最大分类信息的聚类有效性函数 [J].
范九伦 ;
吴成茂 ;
丁夷 .
模糊系统与数学, 2001, (03) :68-73
[4]
基于示例的文本标题分类机制 [J].
林鸿飞 .
计算机研究与发展, 2001, (09) :1132-1136
[6]
基于语句聚类识别的知识动态提取方法研究 [J].
苏牧 ;
肖人彬 .
计算机学报, 2001, (05) :487-495
[7]
Web使用模式研究中的数据挖掘 [J].
张娥 ;
冯秋红 ;
宣慧玉 ;
田增瑞 .
计算机应用研究, 2001, (03) :80-83
[8]
无词典高频字串快速提取和统计算法研究 [J].
韩客松 ;
王永成 ;
陈桂林 .
中文信息学报, 2001, (02) :23-30
[9]
数据挖掘综述 [J].
钟晓 ;
马少平 ;
张钹 ;
俞瑞钊 .
模式识别与人工智能, 2001, 14 (01) :48-55
[10]
一个基于向量空间模型的中文文本自动分类系统 [J].
朱华宇 ;
孙正兴 ;
张福炎 .
计算机工程, 2001, (02) :15-17+63