一种基于双词关联的文本特征选择模型

被引:7
作者
高茂庭 [1 ]
王正欧 [2 ]
机构
[1] 上海海事大学计算机系
[2] 天津大学系统工程研究所
关键词
文本挖掘; 特征选择; 双词关联; 聚类分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
向量空间模型(VSM)是一种常用的文本特征表示方法,它是基于特征独立性假设建立起来的,将文本看成是由一个个独立的词所构成,这些词之间互不关联,这种方法丢失了文本中词间的一些重要的关联特征信息。基于双词关联的文本特征选择模型是在VSM的基础上,选择文本中相邻的单词之间的关联信息也作为文本特征,从而能更加充分地表达文本的特征信息。实验表明,这是一种更加有效的文本特征选择方法。
引用
收藏
页码:183 / 185
页数:3
相关论文
共 3 条
[1]
基于LSA降维的RPCL文本聚类算法 [J].
高茂庭 ;
王正欧 .
计算机工程与应用 , 2006, (23) :138-140
[2]
一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26
[3]
隐含语义索引及其在中文文本处理中的应用研究 [J].
周水庚 ;
关佶红 ;
胡运发 .
小型微型计算机系统, 2001, (02) :239-243