基于伪文档的潜在语义索引优化技术的研究

被引:0
作者
郭东波
机构
[1] 沈阳航空工业学院
关键词
潜在语义索引; 潜在语义空间; 语义块; 伪文档;
D O I
暂无
年度学位
2010
学位类型
硕士
导师
摘要
自然语言中普遍存在着同义词和多义词现象,致使人们很难通过以词形匹配的关键词检索寻找到真正需要的网络资源。潜在语义索引通过奇异值分解将同义词映射到潜在语义空间的同一维度上,同时将多义词映射到不同的维度上,进而在一定程度上解决了一词多义和多词一义的现象。潜在语义索引与其它基于概念词典的方法相比,具有可计算性强,领域适应能力强的优点,并已成为了自然语言处理领域中的研究热点。 本文的研究工作是通过强化合理的特征共现信息来提高潜在语义空间中特征向量和文档向量的准确度,进而提高系统的性能。基于以上的想法,本文提出了基于伪文档的潜在语义索引的优化框架,所谓伪文档即是通过对原始文档集合进行有指导地组织而形成的新的文档。同时,本文在基于伪文档的优化框架的基础上提出了两种优化策略:基于语义块的优化方法及基于语义资源的优化方法。 针对潜在语义索引以文档窗口为传递窗口造成的特征相关度不准确的问题,本文提出了基于语义块的优化方法。该方法是通过对原始文档集合有指导地分割,将语义相近的特征划分到同一个语义块单元中,从而加强了语义相关特征的相关性,最终优化了潜在语义空间中的代表特征和文档的向量。 同时,在应用潜在语义索引的过程中,生成潜在语义空间的整个过程是完全无指导的,使得语义空间中的表达特征和文档的向量不够准确。基于语义资源的优化方法通过将人的先验知识融入到原始的文档集合中,有指导地强化了同义特征之间的相关度,最终使得潜在语义空间中表达特征和文档的向量更加准确。 最终,本文开发了“基于潜在语义索引的专利检索系统”作为实验系统,针对本文提出的方法以可视化的形式展示了实验效果。
引用
收藏
页数:57
共 17 条
[1]
潜在语义索引中特征优化技术的研究 [J].
季铎 ;
郑伟 ;
蔡东风 .
中文信息学报, 2009, 23 (02) :69-76
[2]
基于IPC知识结构的专利自动分类方法 [J].
刘玉琴 ;
桂婕 ;
朱东华 .
计算机工程, 2008, (03) :207-209
[3]
文本检索模型综述.[J].曹冬林;林达真;.心智与计算.2007, 04
[4]
Using SVM to construct a Chinese dependency parser [J].
Xu Y. ;
Zhang F. .
Journal of Zhejiang University: Science, 2006, 7 (02) :199-203
[5]
潜在语义分析权重计算的改进 [J].
刘云峰 ;
齐欢 ;
Xiang’en Hu ;
Zhiqiang Cai .
中文信息学报, 2005, (06)
[6]
基于潜在语义分析的BBS文档Bayes鉴别器 [J].
刘昌钰 ;
唐常杰 ;
于中华 ;
杜永萍 ;
郭颖 .
计算机学报, 2004, (04) :566-572
[7]
中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[8]
隐含语义索引及其在中文文本处理中的应用研究 [J].
周水庚 ;
关佶红 ;
胡运发 .
小型微型计算机系统, 2001, (02) :239-243
[9]
开发自己的搜索引擎.[M].邱哲; 符滔滔; 编著.人民邮电出版社.2007,
[10]
Singular value decomposition based data distortion strategy for privacy protection [J].
Xu, Shuting ;
Zhang, Jun ;
Han, Dianwei ;
Wang, Jie .
KNOWLEDGE AND INFORMATION SYSTEMS, 2006, 10 (03) :383-397