基于最近邻子空间搜索的两类文本分类方法

被引:3
作者
李玉鑑
王影
冷强奎
机构
[1] 北京工业大学计算机学院
基金
北京市自然科学基金;
关键词
文本分类; 最近邻子空间搜索; 最近邻搜索;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。
引用
收藏
页码:168 / 172
页数:5
相关论文
共 2 条
  • [1] 矩阵的奇异值分解在文本分类研究中的应用
    刘贵龙
    王慧玲
    宋柔
    [J]. 计算机工程, 2002, (12) : 17 - 18+100
  • [2] Using linear algebra for intelligent information retrieval
    Berry, MW
    Dumais, ST
    OBrien, GW
    [J]. SIAM REVIEW, 1995, 37 (04) : 573 - 595