中文分词在邮件过滤系统中的应用

被引:5
作者
林珊
宁国宁
赵之霖
机构
[1] 华南理工大学广东省计算机网络重点实验室
[2] 华南理工大学广东省计算机网络重点实验室 广东 广州 510640
关键词
分词; Φ2统计法; 最大匹配法; 垃圾邮件;
D O I
暂无
中图分类号
TP393.098 [];
学科分类号
080402 ;
摘要
针对邮件文本分词效果较差的特点,提出采用一种改进的最大匹配法来进行中文分词的方法.该方法对于普通的邮件文本和一些具有特定格式的邮件文本都可以进行有效的分词;文中还利用Φ2统计法生成新词,对词典起到了动态更新的作用,提高了分词的精度和准确度.两种方法在邮件过滤系统中结合应用,使分词的误分率低于0.025.
引用
收藏
页码:112 / 116
页数:5
相关论文
共 3 条
[1]   一种新的电子邮件过滤系统模型的设计 [J].
蔡立军 ;
施荣华 .
计算机工程, 2003, (16) :167-169
[2]   汉语分词的主要技术及其应用展望 [J].
王科 ;
高常波 ;
翟雪峰 ;
罗万伯 .
通信技术, 2003, (06) :12-15
[3]   自动分词技术及其在信息检索中应用的研究 [J].
黄崑 ;
符绍宏 .
现代图书情报技术, 2001, (03) :26-29