学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于卡方统计改进的TF-IDF的文本分类的研究
被引:8
作者
:
论文数:
引用数:
h-index:
机构:
王露瑶
论文数:
引用数:
h-index:
机构:
张涛
论文数:
引用数:
h-index:
机构:
陈才
论文数:
引用数:
h-index:
机构:
朱安琥
罗启明
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学信息学部软件学院
罗启明
机构
:
[1]
北京工业大学信息学部软件学院
来源
:
电子世界
|
2019年
/ 06期
关键词
:
D O I
:
10.19353/j.cnki.dzsj.2019.06.009
中图分类号
:
TP391.1 [文字信息处理];
O212 [数理统计];
学科分类号
:
070103
[概率论与数理统计]
;
120506
[数字人文]
;
摘要
:
<正>TF-IDF算法作为最常见的特征权重计算方法被广泛使用。传统TF-IDF特征提取方法在文本分类任务中缺乏对类之间分布差异的体现。基于此种情况,立足于传统TF-IDF算法中根据词频来选择特征词的特性,本文提出一种新的基于卡方统计的特征词提取算法并通过改进后的新方法对文本分类模型进行评估。实验结果表明,新方法在查准率、查全率、F1值和ROCAUC等评估结果上较传统特征提取方法有明显优化。
引用
收藏
页码:24 / 25+28 +28
页数:3
相关论文
未找到相关数据
未找到相关数据