基于词同现频率的文本特征描述

被引：8

作者：

余刚

陈华月

朱征宇

高原

机构：

[1] 重庆大学计算机学院

[2] 重庆大学计算机学院重庆

[3] 重庆

来源：

计算机工程与设计 | 2005年 / 08期

关键词：

向量空间模型; 文本挖掘; 词同现频率; 权重计算; 匹配;

D O I：

10.16208/j.issn1000-7024.2005.08.064

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。

引用

页码：2180 / 2182

页数：3

共 4 条

[1] 一种基于字同现频率的汉语文本主题抽取方法 [J].