学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
动态自适应特征权重的多类文本分类算法研究
被引:8
作者
:
裴颂文
论文数:
0
引用数:
0
h-index:
0
机构:
上海理工大学计算机科学与工程系
上海理工大学计算机科学与工程系
裴颂文
[
1
]
论文数:
引用数:
h-index:
机构:
吴百锋
[
2
]
机构
:
[1]
上海理工大学计算机科学与工程系
[2]
复旦大学计算机科学技术学院
来源
:
计算机应用研究
|
2011年
/ 28卷
/ 11期
关键词
:
文本分类;
特征权重;
TF-IDF;
分散度;
梯度差;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法 TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法不仅考虑了特征项在文本中出现的频率及该特征项所属文本在训练集中的数量,而且通过考查特征项的分散度和特征向量梯度差以自适应动态文本的分类。实验结果表明,采用DATW方法计算特征权重可以有效提高文本分类的性能。
引用
收藏
页码:4092 / 4096
页数:5
相关论文
共 3 条
[1]
An improved TF-IDF approach for text classification
[J].
张云涛
论文数:
0
引用数:
0
h-index:
0
机构:
China
张云涛
;
论文数:
引用数:
h-index:
机构:
龚玲
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
China
王永成
.
Journal of Zhejiang University Science A(Science in Engineering),
2005,
(01)
:50
-56
[2]
用Naive Bayes方法协调分类Web网页
[J].
论文数:
引用数:
h-index:
机构:
范焱
;
郑诚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
郑诚
;
论文数:
引用数:
h-index:
机构:
王清毅
;
论文数:
引用数:
h-index:
机构:
蔡庆生
;
论文数:
引用数:
h-index:
机构:
刘洁
.
软件学报,
2001,
(09)
:1386
-1392
[3]
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang. Communications of the ACM . 1975 (11)
←
1
→
共 3 条
[1]
An improved TF-IDF approach for text classification
[J].
张云涛
论文数:
0
引用数:
0
h-index:
0
机构:
China
张云涛
;
论文数:
引用数:
h-index:
机构:
龚玲
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
China
王永成
.
Journal of Zhejiang University Science A(Science in Engineering),
2005,
(01)
:50
-56
[2]
用Naive Bayes方法协调分类Web网页
[J].
论文数:
引用数:
h-index:
机构:
范焱
;
郑诚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
郑诚
;
论文数:
引用数:
h-index:
机构:
王清毅
;
论文数:
引用数:
h-index:
机构:
蔡庆生
;
论文数:
引用数:
h-index:
机构:
刘洁
.
软件学报,
2001,
(09)
:1386
-1392
[3]
A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang. Communications of the ACM . 1975 (11)
←
1
→