基于χ2统计量的kNN文本分类算法

被引：13

作者：

印鉴

谭焕云

机构：

[1] 中山大学计算机科学系

来源：

小型微型计算机系统 | 2007年 / 06期

基金：

高等学校博士学科点专项科研基金; 广东省自然科学基金; 广东省科技计划;

关键词：

文本分类; 特征选择; kNN; χ2统计量;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.

引用

页码：1094 / 1097

页数：4

共 5 条

[1] 基于多示例学习的中文Web目录页面推荐
黎铭
薛晓冰
周志华
[J]. 软件学报, 2004, (09) : 1328 - 1335
[2] 一种应用向量聚合技术的KNN中文文本分类方法
李莹
张晓辉
王华勇
常桂然
[J]. 小型微型计算机系统, 2004, (06) : 993 - 996
[3] 基于密度的kNN文本分类器训练样本裁剪方法
李荣陆
胡运发
[J]. 计算机研究与发展, 2004, (04) : 539 - 545
[4] 向量空间法中单词权重函数的分析和构造
陆玉昌
鲁明羽
李凡
周立柱
[J]. 计算机研究与发展, 2002, (10) : 1205 - 1210
[5] An Evaluation of Statistical Approaches to Text Categorization
Yiming Yang
[J]. Information Retrieval, 1999, 1 (1-2): : 69 - 90

← 1 →