基于向量空间模型的多主题Web文本分类方法

被引:14
作者
周炎涛 [1 ]
唐剑波 [1 ]
吴正国 [2 ]
机构
[1] 湖南大学计算机与通信学院
[2] 海军工程大学信息与电气学院
关键词
向量空间模型; 文本分类; 多主题; 数据挖掘;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中。实验证明,这种方法具有较好的精确度和召回率。
引用
收藏
页码:142 / 144
页数:3
相关论文
共 4 条
  • [1] 基于本体实现对网页文本的自动主题分类
    刘娇蛟
    龚丽
    李建华
    [J]. 计算机工程, 2003, (11) : 95 - 97
  • [2] 凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005(06)
  • [3] Li Baoli,Lu Qin,Yu Shiwen.An adaptive k -nearest neighbor text categorization strategy[J].ACM Transactions on Asian Language Information Processing (TALIP),2004(4)
  • [4] Athanasios Kehagias,Vassilios Petridis,Vassilis G. Kaburlasos,Pavlina Fragkou.A Comparison of Word- and Sense-Based Text Categorization Using Several Classification Algorithms[J].J. Intell. Inf. Syst.,2003