基于同义词词林的文本特征选择与加权研究

被引:9
作者
吕震宇 [1 ]
林永民 [1 ]
赵爽 [1 ]
朱卫东 [2 ]
机构
[1] 河北理工大学经济管理学院
[2] 北京交通大学计算机与信息技术学院
关键词
文本分类; 特征选择; 特征加权; 同义词词林;
D O I
暂无
中图分类号
G250.76 [电子图书馆、数字图书馆];
学科分类号
1205 ; 120501 ;
摘要
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法。该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征。实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度。
引用
收藏
页码:130 / 132
页数:3
相关论文
共 6 条
[1]   一种基于语义和统计特征的中文文本特征表示方法 [J].
赵鹏 ;
耿焕同 ;
蔡庆生 .
小型微型计算机系统, 2007, (07) :1311-1313
[2]   基于领域词典的文本特征表示 [J].
陈文亮 ;
朱靖波 ;
朱慕华 ;
姚天顺 .
计算机研究与发展, 2005, (12) :2155-2160
[3]   特征词提取中同义处理的新方法 [J].
邹娟 ;
周经野 ;
邓成 ;
高南莎 .
中文信息学报, 2005, (06) :46-51
[4]   知网与同义词词林的信息融合研究 [J].
梅立军 ;
周强 ;
臧路 ;
陈祖舜 .
中文信息学报, 2005, (01) :63-70
[5]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[6]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210