基于改进的TF-IDF特征权重算法的网页自动分类

被引:2
作者
蔡银珊
黄英铭
机构
[1] 揭阳职业技术学院数学与计算机科学系
关键词
网页分类; tf-idf; 特征权重;
D O I
10.16276/j.cnki.cn51-1670/g.2010.08.027
中图分类号
TP393.092 [];
学科分类号
摘要
TF-IDF是文档特征权重表示常用方法,但不能真正地反映特征词对区分每个类的贡献。故针对网页分类中特征选择方法存在的问题,加入网页标签特征权重改进TF-IDF公式,提出了一种比较有效的网页分类算法,实验结果表明该方法具有较好的特征选择效果,能够有效地提高分类精度。
引用
收藏
页码:106 / 109
页数:4
相关论文
共 7 条
[1]  
基于Web文本内容的信息过滤系统的研究与设计.[D].刘七.南京理工大学.2004, 04
[2]   Web文档中词语权重计算方法的改进 [J].
初建崇 ;
刘培玉 ;
王卫玲 .
计算机工程与应用, 2007, (19) :192-194+198
[3]   基于词频差异的特征选取及改进的TF-IDF公式 [J].
罗欣 ;
夏德麟 ;
晏蒲柳 .
计算机应用, 2005, (09) :2031-2033
[4]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 ;
不详 .
计算机工程与应用 , 2005, (01) :181-184+220
[5]   基于网页特征的TFIDF改进算法 [J].
宋斌 ;
方小璐 .
微计算机应用, 2002, (01) :18-20
[6]   用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392
[7]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101