共 17 条
文本分类中TF-IDF权重计算方法改进
被引:12
作者:

隗中杰
论文数: 0 引用数: 0
h-index: 0
机构: 中国人民公安大学信息技术与网络安全学院
机构:
[1] 中国人民公安大学信息技术与网络安全学院
来源:
关键词:
文本分类;
密度;
TF-IDF;
特征权重;
分布;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
TF-IDF是文本分类中计算特征权重的经典方法,但其本身并未考虑特征词在文档集合中的分布情况,从而导致类别区分度不大。通过计算特征词类内密度与特征词在样本中均匀分布时整体平均密度的比值对IDF函数进行改进。实验结果表明,改进后的TF-IDF考虑了特征词内分布与在整体文档集中的分布,提升了对类别的区分能力,有效改善了文本分类效果。
引用
收藏
页码:39 / 42
页数:4
相关论文
共 17 条
[1]
基于改进的TF-IDF权重的短文本分类算法
[J].
杨彬
;
韩庆文
;
雷敏
;
张亚鹏
;
刘向国
;
杨亚强
;
马雪峰
.
重庆理工大学学报(自然科学),
2016, (12)
:108-113

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

雷敏
论文数: 0 引用数: 0
h-index: 0
机构:
重庆阿尔法碳索科技有限公司 重庆大学通信工程学院

张亚鹏
论文数: 0 引用数: 0
h-index: 0
机构:
重庆阿尔法碳索科技有限公司 重庆大学通信工程学院

刘向国
论文数: 0 引用数: 0
h-index: 0
机构:
重庆阿尔法碳索科技有限公司 重庆大学通信工程学院

杨亚强
论文数: 0 引用数: 0
h-index: 0
机构:
重庆阿尔法碳索科技有限公司 重庆大学通信工程学院

马雪峰
论文数: 0 引用数: 0
h-index: 0
机构:
重庆阿尔法碳索科技有限公司 重庆大学通信工程学院
[2]
基于改进TF-IDF算法的文本分类方法研究
[J].
贺科达
;
朱铮涛
;
程昱
.
广东工业大学学报,
2016, 33 (05)
:49-53

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[3]
改进的TF-IDF中文本特征词加权算法研究
[J].
申剑博
.
软件导刊,
2015, 14 (04)
:67-69

申剑博
论文数: 0 引用数: 0
h-index: 0
机构: 西安工程大学计算机与信息学院
[4]
中文分词与词性标注研究
[J].
梁喜涛
;
顾磊
.
计算机技术与发展,
2015, 25 (02)
:175-180

论文数: 引用数:
h-index:
机构:

顾磊
论文数: 0 引用数: 0
h-index: 0
机构: 南京邮电大学计算机学院
[5]
文本分类中TF-IDF方法的改进研究
[J].
覃世安
;
李法运
.
现代图书情报技术,
2013, (10)
:27-30

论文数: 引用数:
h-index:
机构:

李法运
论文数: 0 引用数: 0
h-index: 0
机构: 福州大学公共管理学院
[6]
改进TF-IDF算法的文本特征项权值计算方法
[J].
路永和
;
李焰锋
.
图书情报工作 ,
2013, (03)
:90-95

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[7]
支持向量机理论与算法研究综述
[J].
丁世飞
;
齐丙娟
;
谭红艳
.
电子科技大学学报 ,
2011, (01)
:2-10

丁世飞
论文数: 0 引用数: 0
h-index: 0
机构:
中国矿业大学计算机科学与技术学院
中国科学院计算技术研究所智能信息处理重点实验室 中国矿业大学计算机科学与技术学院

论文数: 引用数:
h-index:
机构:

谭红艳
论文数: 0 引用数: 0
h-index: 0
机构:
中国科学院声学研究所高性能网络实验室 中国矿业大学计算机科学与技术学院
[8]
TFIDF算法研究综述
[J].
施聪莺
;
徐朝军
;
杨晓江
.
计算机应用,
2009, 29(S1) (S1)
:167-170+180

施聪莺
论文数: 0 引用数: 0
h-index: 0
机构: 南京师范大学教育技术系

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[9]
基于SVM与KNN的中文文本分类比较实证研究
[J].
刘怀亮
;
张治国
;
马志辉
;
孙蕾
.
情报理论与实践,
2008, 31 (06)
:941-944

刘怀亮
论文数: 0 引用数: 0
h-index: 0
机构: 西安电子科技大学经济管理学院

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[10]
KNN和SVM算法在中文文本自动分类技术上的比较研究
[J].
马建斌
;
李滢
;
滕桂法
;
王芳
;
赵洋
.
河北农业大学学报,
2008, (03)
:120-123

马建斌
论文数: 0 引用数: 0
h-index: 0
机构:
河北农业大学信息科学与技术学院 河北农业大学信息科学与技术学院

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构: