学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
文本分类中基于改进的词语权重算法的研究
被引:1
作者
:
论文数:
引用数:
h-index:
机构:
侯艳钗
论文数:
引用数:
h-index:
机构:
沈西挺
机构
:
[1]
河北工业大学计算机科学与软件学院
来源
:
微计算机信息
|
2011年
/ 27卷
/ 06期
关键词
:
中文文本;
特征项;
x2统计量;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。
引用
收藏
页码:211 / 213
页数:3
相关论文
共 6 条
[1]
中文网页分类特征提取方法研究.[D].朱丽娜.中国石油大学.2009, 03
[2]
ON RELEVANCE, PROBABILISTIC INDEXING AND INFORMATION RETRIEVAL
[J].
MARON, ME
论文数:
0
引用数:
0
h-index:
0
MARON, ME
;
KUHNS, JL
论文数:
0
引用数:
0
h-index:
0
KUHNS, JL
.
JOURNAL OF THE ACM,
1960,
7
(03)
:216
-244
[3]
一种改进的朴素贝叶斯文本分类算法
[J].
刘沛骞
论文数:
0
引用数:
0
h-index:
0
机构:
河南理工大学计算机科学与技术学院
刘沛骞
;
论文数:
引用数:
h-index:
机构:
冯晶晶
.
微计算机信息,
2010,
26
(27)
:187
-188
[4]
文本分类中结合评估函数的TEF-WA权值调整技术
[J].
唐焕玲
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系
唐焕玲
;
孙建涛
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系
孙建涛
;
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系
陆玉昌
.
计算机研究与发展,
2005,
(01)
:47
-53
[5]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
[6]
自动分类研究进展
[J].
肖明
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学信息技术与管理学系!北京
肖明
;
论文数:
引用数:
h-index:
机构:
沈英
.
现代图书情报技术,
2000,
(05)
:25
-28
←
1
→
共 6 条
[1]
中文网页分类特征提取方法研究.[D].朱丽娜.中国石油大学.2009, 03
[2]
ON RELEVANCE, PROBABILISTIC INDEXING AND INFORMATION RETRIEVAL
[J].
MARON, ME
论文数:
0
引用数:
0
h-index:
0
MARON, ME
;
KUHNS, JL
论文数:
0
引用数:
0
h-index:
0
KUHNS, JL
.
JOURNAL OF THE ACM,
1960,
7
(03)
:216
-244
[3]
一种改进的朴素贝叶斯文本分类算法
[J].
刘沛骞
论文数:
0
引用数:
0
h-index:
0
机构:
河南理工大学计算机科学与技术学院
刘沛骞
;
论文数:
引用数:
h-index:
机构:
冯晶晶
.
微计算机信息,
2010,
26
(27)
:187
-188
[4]
文本分类中结合评估函数的TEF-WA权值调整技术
[J].
唐焕玲
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系
唐焕玲
;
孙建涛
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系
孙建涛
;
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系
陆玉昌
.
计算机研究与发展,
2005,
(01)
:47
-53
[5]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
[6]
自动分类研究进展
[J].
肖明
论文数:
0
引用数:
0
h-index:
0
机构:
北京师范大学信息技术与管理学系!北京
肖明
;
论文数:
引用数:
h-index:
机构:
沈英
.
现代图书情报技术,
2000,
(05)
:25
-28
←
1
→