基于词频差异的特征选取及改进的TF-IDF公式

被引:53
作者
罗欣
夏德麟
晏蒲柳
机构
[1] 武汉大学电子信息学院湖北武汉
关键词
特征选取; 向量空间模型; 文本分类; TF-IDF; 信息增益; 互信息量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。
引用
收藏
页码:2031 / 2033
页数:3
相关论文
empty
未找到相关数据