面向不均衡类别朴素贝叶斯犯罪案件文本分类

被引:6
作者
程春惠
何钦铭
机构
[1] 浙江大学计算机科学与技术学院
关键词
文本分类; 朴素贝叶斯; 犯罪挖掘; 多变量贝努里模型; 多项式模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对案件文本的特点,提出了具有针对性的特殊文本预处理方法,并比较了两种有效的特征选择方法。针对案件类别分布不均衡的特点,提出了改进的多变量贝努里模型。实验结果表明,改进的多变量贝努里模型有效地提高了案件文本分类的准确率。
引用
收藏
页码:126 / 128+131 +131
页数:4
相关论文
共 3 条
[1]   文本分类中特征选择方法研究 [J].
王维娜 ;
康耀红 ;
伍小芹 .
信息技术, 2008, 32 (12) :29-31
[2]   基于层叠隐马模型的汉语词法分析 [J].
刘群 ;
张华平 ;
俞鸿魁 ;
程学旗 .
计算机研究与发展, 2004, (08) :1421-1429
[3]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23