Web文档中词语权重计算方法的改进

被引:14
作者
初建崇 [1 ]
刘培玉 [2 ]
王卫玲 [2 ]
机构
[1] 海军航空工程学院训练部
[2] 山东师范大学信息科学与工程学院
关键词
向量空间模型; Web文本分类; 权重调整; 互信息;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。
引用
收藏
页码:192 / 194+198 +198
页数:4
相关论文
共 3 条
  • [1] 基于N层向量空间模型的信息检索算法
    陈治平
    林亚平
    童调生
    [J]. 计算机研究与发展, 2002, (10) : 1233 - 1237
  • [2] 向量空间法中单词权重函数的分析和构造
    陆玉昌
    鲁明羽
    李凡
    周立柱
    [J]. 计算机研究与发展, 2002, (10) : 1205 - 1210
  • [3] 关于文本特征抽取新方法的研究
    李凡
    鲁明羽
    陆玉昌
    [J]. 清华大学学报(自然科学版), 2001, (07) : 98 - 101