基于潜在语义的多类文本分类模型研究

被引:52
作者
叶浩
王明文
曾雪强
机构
[1] 江西师范大学计算机信息工程学院,江西师范大学计算机信息工程学院,江西师范大学计算机信息工程学院南昌,南昌,南昌
关键词
多类分类; 潜在语义; 潜在语义分类; 偏最小二乘;
D O I
10.16511/j.cnki.qhdxxb.2005.s1.020
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
在文本分类中,一个文本往往有多类属性,而目前大多数分类模型均为二元分类模型。因此,提出一种基于潜在语义的多类分类模型。该模型同时考虑文档特征信息和文档的类属信息,在提取文档潜在语义信息的同时把对文档分类贡献大的特征信息保留下来。其结果是既能较好地解决文档中同义词和多义词的问题,又能解决多类属分类问题,并且能够探测到新类。在R eu ters文档集上的实验表明,在维数较低的情况下,分类效果比较好,性能比较稳定。
引用
收藏
页码:1818 / 1822
页数:5
相关论文
共 1 条
[1]
一种基于潜在语义结构的文本分类模型 [J].
曾雪强 ;
王明文 ;
陈素芬 .
华南理工大学学报(自然科学版), 2004, (自然科学版) :99-102