基于类别信息优化的潜在语义分析分类技术

被引:7
作者
季铎 [1 ,2 ]
毕臣 [2 ]
蔡东风 [2 ]
机构
[1] 中国刑事警察学院网络犯罪侦查系
[2] 沈阳航空航天大学知识工程中心
关键词
潜在语义分析; 特征共现; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
潜在语义索引作为一种公认有效的矩阵降维技术,在关键词检索、文本分类等多种基于统计的机器文本学习任务中被广泛应用.基于专业文献的文本分类任务,结合严格分类体系下同类与不同类文本的特点,以专利文献分类为例,提出了一种基于类别信息优化的潜在语义分析分类技术.该方法根据分类文本各类别的特征信息,将原始文档分解为多种伪文档,强化不同分类的专属特征出现频率,进而优化构建潜在语义空间,提升模型分类性能.实验结果证明,专利文本分类任务结合该方法时,可以有效地提高分类的准确性.
引用
收藏
页码:314 / 320
页数:7
相关论文
共 5 条
[1]
专利文本分类的基础问题研究 [J].
屈鹏 ;
王惠临 .
现代图书情报技术, 2013, (03) :38-44
[2]
训练集类别分布对文本分类的影响[J] 张启蕊;张凌;董守斌;谭景华 清华大学学报(自然科学版) 2005, S1
[3]
基于潜在语义的多类文本分类模型研究[J] 叶浩;王明文;曾雪强 清华大学学报(自然科学版) 2005, S1
[4]
基于伪文档的潜在语义索引优化技术的研究 [D]. 
郭东波 .
沈阳航空工业学院,
2010
[5]
Technology classification with latent semantic indexing[J] Dirk Thorleuchter;Dirk Van den Poel Expert Systems With Applications 2013,