结合中文分词的贝叶斯文本分类

被引:2
作者
魏晓宁 [1 ]
朱巧明 [1 ]
梁惺彦 [2 ]
机构
[1] 苏州大学
[2] 南通大学
关键词
文本分类; 贝叶斯; 分词;
D O I
10.16219/j.cnki.szxbzk.2008.01.014
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文本分类是组织大规模文档数据的基础和核心。朴素贝叶斯文本分类方法是种简单且有效的文本分类算法,但是属性间强独立性的假设在现实中并不成立,借鉴概率论中的多项式模型,结合中文分词过程,引入特征词条权重,给出了改进Bayes方法。并由实验验证和应用本方法,文本分类的效率得到了提高。
引用
收藏
页码:104 / 107
页数:4
相关论文
共 1 条
[1]  
刘开瑛著.中文文本自动分词和标注[M].北京:商务印书馆,2000