基于支持向量机的中文农业文本分类技术研究

被引:30
作者
魏芳芳 [1 ]
段青玲 [1 ,2 ]
肖晓琰 [1 ]
张磊 [1 ]
机构
[1] 中国农业大学信息与电气工程学院
[2] 不详
基金
中央高校基本科研业务费专项资金资助; 国家高技术研究发展计划(863计划);
关键词
文本分类; 支持向量机; 中文农业信息; 信息整合;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP181 [自动推理、机器学习];
学科分类号
摘要
高效地组织、分类信息,是提供个性化农业信息推荐服务的基础。根据农业文本信息特点,提出了一种基于线性支持向量机(Support vector machine,SVM)的中文农业文本分类模型,首先构建农业行业分类关键词库,通过特征词选择和权重计算,构建分类器模型,实现信息的自动分类。实验选取了1 071个测试文档,并按照种植业、林业、畜牧业、渔业进行分类。结果表明,分类准确率为96.5%,召回率为96.4%。实验结果高于贝叶斯、决策树、KNN、SMO等分类算法,将该模型应用于农业物联网行业信息综合服务平台,运行结果表明,该方法能够实现中文农业文本信息的自动分类,响应时间满足系统要求。
引用
收藏
页码:174 / 179
页数:6
相关论文
共 8 条
  • [1] 基于文本内容的农业网页信息抽取和分类研究
    朱学芳
    冯曦曦
    [J]. 情报科学, 2012, 30 (07) : 1012 - 1015
  • [2] 基于向量空间模型中文农业网页分类技术研究
    段园磊
    张太红
    [J]. 新疆农业大学学报, 2012, 35 (02) : 164 - 167
  • [3] 信息化与现代农业发展
    郭作玉
    [J]. 中国信息界, 2011, (09) : 5 - 8
  • [4] 基于KNN的文本分类特征选择与分类算法的研究与改进[D]. 黄娟娟.厦门大学. 2014
  • [5] 基于SVM的WEB中文文本分类系统研究与实现[D]. 刘佳.西安电子科技大学. 2014
  • [6] 基于知网语义关系的中文事件信息抽取研究[D]. 董萍.西安电子科技大学. 2010
  • [7] Automatic classification of academic web page types
    Kenekayoro, Patrick
    Buckley, Kevan
    Thelwall, Mike
    [J]. SCIENTOMETRICS, 2014, 101 (02) : 1015 - 1026
  • [8] Understanding inverse document frequency: on theoretical arguments for IDF[J] . Stephen Robertson.Journal of Documentation . 2004 (5)