文本层次分类中特征项权重算法的比较研究

被引:4
作者
谭金波
机构
[1] 不详
[2] 山东师范大学教育技术系
[3] 不详
关键词
层次分类; 特征项权重; 文本表示; 向量空间模型;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
摘要
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,其对文本分类的效果起着至关重要的作用。目前,特征项权重的计算方法很多,但在层次分类环境下哪种方法较好还没有定论。以层次分类环境为出发点,对TF.IDF和基于熵概念的权重方法进行了比较研究,实验结果表明TF.IDF整体得分最高,能够对文本进行较好地形式化表示。
引用
收藏
页码:87 / 88+91 +91
页数:3
相关论文
共 5 条
[1]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 ;
不详 .
计算机工程与应用 , 2005, (01) :181-184+220
[2]   文本分类中特征项权重的计算方法 [J].
贝雨馨 ;
崔荣一 .
延边大学学报(自然科学版), 2004, (03) :202-204+234
[3]   文本挖掘研究进展 [J].
湛燕 ;
陈昊 ;
袁方 ;
王丽娟 .
河北大学学报(自然科学版), 2003, (02) :221-226
[4]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[5]  
中文文本自动分类中的关键问题研究[D]. 薛德军.清华大学. 2004