基于词同现频率的文本特征描述

被引:8
作者
余刚
陈华月
朱征宇
高原
机构
[1] 重庆大学计算机学院
[2] 重庆大学计算机学院 重庆
[3] 重庆
关键词
向量空间模型; 文本挖掘; 词同现频率; 权重计算; 匹配;
D O I
10.16208/j.issn1000-7024.2005.08.064
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。
引用
收藏
页码:2180 / 2182
页数:3
相关论文
共 4 条
[1]   一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878
[2]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[3]   基于义原同现频率的汉语词义排歧方法 [J].
杨尔弘 ;
张国清 ;
张永奎 .
计算机研究与发展, 2001, (07) :833-838
[4]  
知识发现.[M].史忠植著;.清华大学出版社.2002,