共 6 条
基于同义词词林的文本特征选择与加权研究
被引:9
作者:
吕震宇
[1
]
林永民
[1
]
赵爽
[1
]
朱卫东
[2
]
机构:
[1] 河北理工大学经济管理学院
[2] 北京交通大学计算机与信息技术学院
来源:
关键词:
文本分类;
特征选择;
特征加权;
同义词词林;
D O I:
暂无
中图分类号:
G250.76 [电子图书馆、数字图书馆];
学科分类号:
1205 ;
120501 ;
摘要:
特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法。该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征。实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度。
引用
收藏
页码:130 / 132
页数:3
相关论文