中文分词在邮件过滤系统中的应用

被引：5

作者：

林珊

宁国宁

赵之霖

机构：

[1] 华南理工大学广东省计算机网络重点实验室

[2] 华南理工大学广东省计算机网络重点实验室广东广州 510640

来源：

华南理工大学学报(自然科学版) | 2004年 / S1期

关键词：

分词; Φ2统计法; 最大匹配法; 垃圾邮件;

D O I：

暂无

中图分类号：

TP393.098 [];

学科分类号：

080402 ;

摘要：

针对邮件文本分词效果较差的特点,提出采用一种改进的最大匹配法来进行中文分词的方法.该方法对于普通的邮件文本和一些具有特定格式的邮件文本都可以进行有效的分词;文中还利用Φ2统计法生成新词,对词典起到了动态更新的作用,提高了分词的精度和准确度.两种方法在邮件过滤系统中结合应用,使分词的误分率低于0.025.

引用

页码：112 / 116

页数：5