共 9 条
一种基于类别分布信息的文本特征选择模型
被引:5
作者:
刘海峰
[1
]
于利军
[2
]
刘守生
机构:
[1] 解放军理工大学理学院
[2] 解放军理工大学气象海洋学院
来源:
关键词:
文本分类;
特征选择;
TF-IDF;
类内分布;
类间分布;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
TF-IDF是一种常用的文本特征选择方法。基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型。新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息。随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性。
引用
收藏
页码:137 / 141
页数:5
相关论文