学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于改进的TF-IDF特征权重算法的网页自动分类
被引:2
作者
:
蔡银珊
论文数:
0
引用数:
0
h-index:
0
机构:
揭阳职业技术学院数学与计算机科学系
蔡银珊
黄英铭
论文数:
0
引用数:
0
h-index:
0
机构:
揭阳职业技术学院数学与计算机科学系
黄英铭
机构
:
[1]
揭阳职业技术学院数学与计算机科学系
来源
:
绵阳师范学院学报
|
2010年
/ 29卷
/ 08期
关键词
:
网页分类;
tf-idf;
特征权重;
D O I
:
10.16276/j.cnki.cn51-1670/g.2010.08.027
中图分类号
:
TP393.092 [];
学科分类号
:
摘要
:
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。
引用
收藏
页码:106 / 109
页数:4
相关论文
共 7 条
[1]
基于Web文本内容的信息过滤系统的研究与设计.[D].刘七.南京理工大学.2004, 04
[2]
Web文档中词语权重计算方法的改进
[J].
初建崇
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院训练部
海军航空工程学院训练部
初建崇
;
论文数:
引用数:
h-index:
机构:
刘培玉
;
论文数:
引用数:
h-index:
机构:
王卫玲
.
计算机工程与应用,
2007,
(19)
:192
-194+198
[3]
基于词频差异的特征选取及改进的TF-IDF公式
[J].
论文数:
引用数:
h-index:
机构:
罗欣
;
论文数:
引用数:
h-index:
机构:
夏德麟
;
论文数:
引用数:
h-index:
机构:
晏蒲柳
.
计算机应用,
2005,
(09)
:2031
-2033
[4]
文本自动分类中特征权重算法的改进研究
[J].
徐凤亚
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
徐凤亚
;
罗振声
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
罗振声
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
不详
.
计算机工程与应用 ,
2005,
(01)
:181
-184+220
[5]
基于网页特征的TFIDF改进算法
[J].
宋斌
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机系
宋斌
;
方小璐
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机系
方小璐
.
微计算机应用,
2002,
(01)
:18
-20
[6]
用Naive Bayes方法协调分类Web网页
[J].
论文数:
引用数:
h-index:
机构:
范焱
;
郑诚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
郑诚
;
论文数:
引用数:
h-index:
机构:
王清毅
;
论文数:
引用数:
h-index:
机构:
蔡庆生
;
论文数:
引用数:
h-index:
机构:
刘洁
.
软件学报,
2001,
(09)
:1386
-1392
[7]
关于文本特征抽取新方法的研究
[J].
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
李凡
;
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
鲁明羽
;
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
陆玉昌
.
清华大学学报(自然科学版),
2001,
(07)
:98
-101
←
1
→
共 7 条
[1]
基于Web文本内容的信息过滤系统的研究与设计.[D].刘七.南京理工大学.2004, 04
[2]
Web文档中词语权重计算方法的改进
[J].
初建崇
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院训练部
海军航空工程学院训练部
初建崇
;
论文数:
引用数:
h-index:
机构:
刘培玉
;
论文数:
引用数:
h-index:
机构:
王卫玲
.
计算机工程与应用,
2007,
(19)
:192
-194+198
[3]
基于词频差异的特征选取及改进的TF-IDF公式
[J].
论文数:
引用数:
h-index:
机构:
罗欣
;
论文数:
引用数:
h-index:
机构:
夏德麟
;
论文数:
引用数:
h-index:
机构:
晏蒲柳
.
计算机应用,
2005,
(09)
:2031
-2033
[4]
文本自动分类中特征权重算法的改进研究
[J].
徐凤亚
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
徐凤亚
;
罗振声
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
罗振声
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算语言学研究室
不详
.
计算机工程与应用 ,
2005,
(01)
:181
-184+220
[5]
基于网页特征的TFIDF改进算法
[J].
宋斌
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机系
宋斌
;
方小璐
论文数:
0
引用数:
0
h-index:
0
机构:
南京理工大学计算机系
方小璐
.
微计算机应用,
2002,
(01)
:18
-20
[6]
用Naive Bayes方法协调分类Web网页
[J].
论文数:
引用数:
h-index:
机构:
范焱
;
郑诚
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机科学与技术系
郑诚
;
论文数:
引用数:
h-index:
机构:
王清毅
;
论文数:
引用数:
h-index:
机构:
蔡庆生
;
论文数:
引用数:
h-index:
机构:
刘洁
.
软件学报,
2001,
(09)
:1386
-1392
[7]
关于文本特征抽取新方法的研究
[J].
李凡
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
李凡
;
鲁明羽
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
鲁明羽
;
陆玉昌
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机科学与技术系智能技术与系统国家重点实验室!北京
陆玉昌
.
清华大学学报(自然科学版),
2001,
(07)
:98
-101
←
1
→