基于NB和CHI值的农业文本分类方法

被引:10
作者
周云成
许童羽
邓寒冰
机构
[1] 沈阳农业大学信息与电气工程学院
关键词
文本分类; 农业文本; 朴素贝叶斯; CHI值; 特征词选取; 标题; 网页文本分类;
D O I
10.15889/j.issn.1002-1302.2018.17.059
中图分类号
S126 [电子技术、计算机技术在农业上的应用]; TP391.1 [文字信息处理];
学科分类号
082806 [农业信息与电气工程]; 120506 [数字人文];
摘要
对采集自网络的农业文本进行自动化分类是进一步利用的前提。拟提出1种结合朴素贝叶斯(naive Bayes,简称NB)和χ2(Chi-square,简称CHI)特征词选取的农业文本分类方法,并用Python语言实现相应的文本分类程序和特征词选择程序。通过从农业信息网站获取已经过良好分类的文档,并对其进行净化、分词等预处理,构建含有4种文本的农业语料库。针对特征词选择数量、训练样本数等对分类识别率的影响及用标题进行网页文本分类的可行性问题开展研究。结果表明,文本分类的正确率主要由CHI值较高的少量特征词条决定,但是按CHI值降序增加特征词条的数量不会对文本识别率造成负面影响;训练样本数量对文本分类的正确率具有一定影响,为了达到较高的识别率,训练样本需要达到一定的数量,然后持续增加样本量,对识别率没有明显贡献;利用网页标题对采集自网络的农业文本进行分类是可行的。通过结合朴素贝叶斯和基于CHI值的特征词选取方法能够很好地对农业文本进行分类,识别率较高。
引用
收藏
页码:219 / 223
页数:5
相关论文
共 15 条
[1]
基于朴素贝叶斯的文本分类研究综述 [J].
贺鸣 ;
孙建军 ;
成颖 .
情报科学, 2016, 34 (07) :147-154
[2]
基于Web数据的农业网络信息自动采集与分类系统 [J].
段青玲 ;
魏芳芳 ;
张磊 ;
肖晓琰 .
农业工程学报, 2016, 32 (12) :172-178
[3]
基于短语的贝叶斯中文垃圾邮件过滤方法 [J].
王青松 ;
魏如玉 .
计算机科学, 2016, 43 (04) :256-259+269
[4]
基于MapReduce的平均多项朴素贝叶斯文本分类 [J].
何敏 ;
武德安 ;
吴磊 .
计算机应用研究, 2016, 33 (01) :115-117
[5]
中文微博用户性别分类方法研究 [J].
王晶晶 ;
李寿山 ;
黄磊 .
中文信息学报, 2014, (06) :150-155+168
[6]
云计算环境下的一种改进的贝叶斯文本分类算法 [J].
张琳 ;
邵天昊 .
计算机科学, 2014, 41(S1) (S1) :339-342
[7]
一种基于词频信息的改进CHI文本特征选择 [J].
刘海峰 ;
苏展 ;
刘守生 .
计算机工程与应用, 2013, 49 (22) :110-114
[8]
基于朴素贝叶斯分类器的朝鲜语文本分类的研究 [J].
周国强 ;
崔荣一 .
中文信息学报, 2011, (04) :16-19
[9]
基于CHI值特征选取和覆盖的文本分类方法 [J].
闫屹 ;
张燕平 ;
耿筱媛 .
计算机技术与发展, 2008, (05) :79-81+85
[10]
基于朴素贝叶斯和遗传算法的两类文本分类方法 [J].
万狄飞 ;
樊兴华 ;
王国胤 .
计算机科学, 2008, (04) :160-161+173