可分性判据在中文网页分类中的应用

被引:4
作者
秦兵
郑实福
刘挺
张刚
李生
机构
[1] 哈尔滨工业大学信息检索组
[2] 哈尔滨工业大学信息检索组 哈尔滨
[3] 哈尔滨
[4] 哈尔滨
关键词
可分性判据; 贝叶斯方法; 文本概率模型; 网页分类;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
摘要
提出了一种改进的基于统计的中文网页的分类算法,通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法、贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。
引用
收藏
页码:26 / 28
页数:3
相关论文
共 1 条
  • [1] 模式识别[M]. 清华大学出版社 , 边肇祺等编著, 2000