共 3 条
Web文档中词语权重计算方法的改进
被引:14
作者:
初建崇
[1
]
刘培玉
[2
]
王卫玲
[2
]
机构:
[1] 海军航空工程学院训练部
[2] 山东师范大学信息科学与工程学院
来源:
关键词:
向量空间模型;
Web文本分类;
权重调整;
互信息;
D O I:
暂无
中图分类号:
TP393.09 [];
学科分类号:
080402 ;
摘要:
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。
引用
收藏
页码:192 / 194+198
+198
页数:4
相关论文