基于投影寻踪回归文本自动分类的模型

被引:5
作者
廖海波
万中英
王明文
机构
[1] 江西师范大学物理与通信电子学院
[2] 江西师范大学计算机信息工程学院
[3] 江西师范大学计算机信息工程学院 南昌330027
关键词
文本分类; 维数约简; 投影寻踪回归;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.021
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的。投影寻踪正是一种稳健的、非参数化的维数约简方法。提出了一种基于投影寻踪回归的文本自动分类模型。应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究。采用标准文档集R eu ters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验。实验结果表明,该模型对文本自动分类具有较高的召回率和准确率。
引用
收藏
页码:1823 / 1827
页数:5
相关论文
共 2 条
[1]   一种基于潜在语义结构的文本分类模型 [J].
曾雪强 ;
王明文 ;
陈素芬 .
华南理工大学学报(自然科学版), 2004, (S1) :99-102
[2]  
维数约简在网页分类中的应用[A]. 万中英,王明文,廖海波,左家莉.NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C]. 2004