基于χ2统计量的kNN文本分类算法

被引:13
作者
印鉴
谭焕云
机构
[1] 中山大学计算机科学系
基金
高等学校博士学科点专项科研基金; 广东省自然科学基金; 广东省科技计划;
关键词
文本分类; 特征选择; kNN; χ2统计量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.
引用
收藏
页码:1094 / 1097
页数:4
相关论文
共 5 条