学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
文本分类中基于方差的改进特征提取算法
被引:12
作者
:
论文数:
引用数:
h-index:
机构:
吕佳
机构
:
[1]
重庆师范大学数学与计算机科学学院运筹学与系统工程重庆市市级重点实验室
来源
:
计算机工程与设计
|
2007年
/ 24期
关键词
:
文本分类;
特征提取;
改进TFIDF;
权重;
方差;
D O I
:
10.16208/j.issn1000-7024.2007.24.043
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异。为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重。仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果。
引用
收藏
页码:6039 / 6041
页数:3
相关论文
共 7 条
[1]
基于机器学习的文本分类技术研究进展
[J].
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
苏金树
;
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
张博锋
;
论文数:
引用数:
h-index:
机构:
徐昕
.
软件学报,
2006,
(09)
:1848
-1859
[2]
自动文本分类中权值公式的改进
[J].
寇莎莎
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息研究系,解放军信息工程大学信息研究系河南郑州,河南郑州
寇莎莎
;
魏振军
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息研究系,解放军信息工程大学信息研究系河南郑州,河南郑州
魏振军
.
计算机工程与设计,
2005,
(06)
:1616
-1618
[3]
使用KNN算法的文本分类
[J].
论文数:
引用数:
h-index:
机构:
张宁
;
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2005,
(08)
:171
-172+185
[4]
文本分类中结合评估函数的TEF-WA权值调整技术
[J].
唐焕玲
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系,清华大学计算机科学与技术系,清华大学计算机科学与技术系 烟台
唐焕玲
;
孙建涛
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系,清华大学计算机科学与技术系,清华大学计算机科学与技术系 烟台
孙建涛
;
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系,清华大学计算机科学与技术系,清华大学计算机科学与技术系 烟台
陆玉昌
.
计算机研究与发展,
2005,
(01)
:47
-53
[5]
一种实用高效的文本分类算法
[J].
王建会
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系
王建会
;
论文数:
引用数:
h-index:
机构:
王洪伟
;
申展
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系
申展
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系
胡运发
.
计算机研究与发展,
2005,
(01)
:85
-93
[6]
中文文本分类中特征抽取方法的比较研究
[J].
论文数:
引用数:
h-index:
机构:
代六玲
;
黄河燕
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
黄河燕
;
陈肇雄
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
陈肇雄
.
中文信息学报,
2004,
(01)
:26
-32
[7]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
←
1
→
共 7 条
[1]
基于机器学习的文本分类技术研究进展
[J].
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
苏金树
;
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学计算机学院
张博锋
;
论文数:
引用数:
h-index:
机构:
徐昕
.
软件学报,
2006,
(09)
:1848
-1859
[2]
自动文本分类中权值公式的改进
[J].
寇莎莎
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息研究系,解放军信息工程大学信息研究系河南郑州,河南郑州
寇莎莎
;
魏振军
论文数:
0
引用数:
0
h-index:
0
机构:
解放军信息工程大学信息研究系,解放军信息工程大学信息研究系河南郑州,河南郑州
魏振军
.
计算机工程与设计,
2005,
(06)
:1616
-1618
[3]
使用KNN算法的文本分类
[J].
论文数:
引用数:
h-index:
机构:
张宁
;
论文数:
引用数:
h-index:
机构:
贾自艳
;
论文数:
引用数:
h-index:
机构:
史忠植
.
计算机工程,
2005,
(08)
:171
-172+185
[4]
文本分类中结合评估函数的TEF-WA权值调整技术
[J].
唐焕玲
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系,清华大学计算机科学与技术系,清华大学计算机科学与技术系 烟台
唐焕玲
;
孙建涛
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系,清华大学计算机科学与技术系,清华大学计算机科学与技术系 烟台
孙建涛
;
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
烟台职业学院计算机与信息工程系,清华大学计算机科学与技术系,清华大学计算机科学与技术系 烟台
陆玉昌
.
计算机研究与发展,
2005,
(01)
:47
-53
[5]
一种实用高效的文本分类算法
[J].
王建会
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系
王建会
;
论文数:
引用数:
h-index:
机构:
王洪伟
;
申展
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系
申展
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机与信息技术系
胡运发
.
计算机研究与发展,
2005,
(01)
:85
-93
[6]
中文文本分类中特征抽取方法的比较研究
[J].
论文数:
引用数:
h-index:
机构:
代六玲
;
黄河燕
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
黄河燕
;
陈肇雄
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机科学系
陈肇雄
.
中文信息学报,
2004,
(01)
:26
-32
[7]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
←
1
→