基于密度的kNN文本分类器训练样本裁剪方法

被引:96
作者
李荣陆
胡运发
机构
[1] 复旦大学计算机与信息技术系
关键词
文本分类; kNN; 快速分类;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN方法存在的这两个问题 ,提出了一种基于密度的kNN分类器训练样本裁剪方法 ,这种方法不仅降低了kNN方法的计算量 ,而且使训练样本的分布密度趋于均匀 ,减少了边界点处测试样本的误判 实验结果显示 ,这种方法具有很好的性能
引用
收藏
页码:539 / 545
页数:7
相关论文
共 13 条
  • [1] An example-based mapping method for text categorization and retrieval. Y Yang,C G Chute. ACM Transactions on Information Systems . 1994
  • [2] Text categorization with support vector machines: Learning with many relevant features. T Joachims. The 10th European Conf on Machine Learning (ECML-98) . 1998
  • [3] Are examinationoftextcategorizationmethods. YYang,XLin. The22ndAnnualInt’’lACMSIGIRConfonResearchandDevelopmentinInformationRetrieval . 1999
  • [4] Aneuralnet work approach to topic spotting. E Wiener. The4thAnnualSymponDocumentAnalysisandInformationRetrieval (SDAIR 95) . 1995
  • [5] Improvedboostingalgorithmsusingcon fidence ratedpredications. RESchapire,YSinger. Procofthe11thAnnualConfonComputationalLearningTheory . 1998
  • [6] Pattern classifi cationus inganefficient KNNR. SOBelkasim,MShridhar,,MAhmadi. Pattern RecognitionLetter . 1992
  • [7] Analgorithmforfindingnearestneighborsin (approxi mately)constantaveragetime. VERuiz. PatternRecognitionLetter . 1986
  • [8] Thecondensednearestneighborrule. PEHart. IEEETransonInformationTheory . 1968
  • [9] Asymptoticpropertiesofnearestneighborrulesusingediteddata. DLWilson. IEEETransonSystems,ManandCybernetics . 1972
  • [10] Editingforthek nearestneighborsrulebyagenet icalgorithms. LIKuncheva. PatternRecognitionLetters . 1995