基于改进向量空间模型的邮件分类

被引:3
作者
廖玲
文敦伟
机构
[1] 中南大学信息科学与工程学院
关键词
向量空间模型; 邮件分类; 段落结构;
D O I
暂无
中图分类号
TP393.098 []; TP301.6 [算法理论];
学科分类号
080402 ; 081202 ;
摘要
基于内容的邮件分类一般采用向量空间模型来表示邮件,该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征和词所在的上下文环境,这使得特征向量不能准确地表示邮件的内容,从而导致分类不够准确。文中提出了改进的向量空间模型,针对邮件特有的结构,以段落为分块单位,通过分析段落间的关系和段落中的内容来更改特征词的权重。以此模型设计了一个邮件分类系统,并对该系统进行了测试和结果分析。
引用
收藏
页码:190 / 193+8 +8
页数:5
相关论文
共 4 条
[1]   基于词同现频率的文本特征描述 [J].
余刚 ;
陈华月 ;
朱征宇 ;
高原 .
计算机工程与设计, 2005, (08) :2180-2182
[2]   分析文章结构,把握文章思路 [J].
邵海成 .
文教资料, 2002, (07) :104-108
[3]   自动分类研究现状与展望 [J].
成颖 ;
史九林 .
情报学报, 1999, (01) :20-26
[4]   英语线性段落结构模式研究 [J].
曾利沙 .
外语教学与研究, 1994, (01) :20-26+80