潜在语义索引中特征优化技术的研究

被引:7
作者
季铎
郑伟
蔡东风
机构
[1] 沈阳航空工业学院知识工程中心
关键词
计算机应用; 中文信息处理; 潜在语义索引; 共现特征; 奇异值分解; 特征选择;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
潜在语义索引被广泛应用于信息检索、文本分类、自动问答等领域中。潜在语义索引是一种降维方法,它把共现特征映射到同一维空间上,而非共现特征映射到不同的空间上。在潜在语义索引的语义空间中,共现特征通过文档内部以及文档之间的特征传递关系获得。该文认为这种特征传递关系会引入一些不存在的共现特征,从而降低潜在语义索引的性能,应该对这种特征传递关系进行一些选择,削除不存在的共现特征信息。该文采用文档频率对文档集合进行特征选择,用Complete-Link聚类算法在两个公开语料上进行三个实验,实验结果显示,保留文档频度的10%15%时,其F1值分别提高了6.577 0%,1.992 8%和3.361 4%。
引用
收藏
页码:69 / 76
页数:8
相关论文
共 3 条
[1]   潜在语义分析权重计算的改进 [J].
刘云峰 ;
齐欢 ;
Xiang’en Hu ;
Zhiqiang Cai .
中文信息学报, 2005, (06) :66-71
[2]   文本层次分析与文本浏览 [J].
林鸿飞 ;
战学刚 ;
姚天顺 .
中文信息学报, 1999, (04) :8-16
[3]  
Matrices, Vector Spaces, and Information Retrieval[J] . Michael W. Berry,Zlatko Drmac,Elizabeth R. Jessup.SIAM Review . 1999 (2)