本体与条件随机场结合的涉农商品名称抽取与类别标注

被引:12
作者
黄念娥 [1 ,2 ]
黄河 [1 ]
王儒敬 [1 ]
机构
[1] 中国科学院合肥智能机械研究所
[2] 中国科学技术大学合肥物质研究院
关键词
条件随机场; 农业本体; 涉农商品名称; 供求趋势; 序列标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
传统的基于条件随机场(CRF)的信息抽取方法在进行涉农商品名称抽取与类别标注时,需要大量的训练语料,标注工作量大,且抽取精度不高。为解决该问题,提出了一种基于农业本体与CRF相结合的涉农商品名称抽取与类别标注方法,将涉农商品名称的自动抽取与分类看作序列标注的任务。首先是原始数据的分词处理和词、词性、地理属性、本体概念特征选择;然后,采用改进的拟牛顿算法训练CRF模型参数,用维特比算法实现解码,共完成4组对比实验,识别出7种类别,并将CRF和隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMM)通过实验进行比较;最后,将CRF应用于农产品供求趋势分析。结合合适的特征模板,本体概念的加入使CRF开放测试的总体准确率提高10.20%,召回率提高59.78%,F值提高37.17%,证明了本体与CRF结合方法在涉农商品名称和类别抽取中的可行性和有效性,可以促进农产品供求对接。
引用
收藏
页码:233 / 238
页数:6
相关论文
共 9 条
[1]
基于互联网+的农业电子商务发展模式的研究 [J].
于连军 .
农业网络信息, 2015, (11) :19-21
[2]
基于条件随机场的领域术语识别研究 [J].
施水才 ;
王锴 ;
韩艳铧 ;
吕学强 .
计算机工程与应用, 2013, 49 (10) :147-149+155
[3]
采用CRF技术的军事情报术语自动抽取研究 [J].
贾美英 ;
杨炳儒 ;
郑德权 ;
杨靖 .
计算机工程与应用, 2009, 45 (32) :126-129
[4]
基于条件随机域CRF模型的文本信息抽取 [J].
周晶 ;
吴军华 ;
陈佳 ;
陈沈焰 .
计算机工程与设计, 2008, (23) :6094-6097
[5]
统计自然语言处理.[M].宗成庆; 著.清华大学出版社.2013,
[6]
基于本体的自适应Web信息抽取方法研究 [D]. 
李传席 .
中国科学技术大学,
2012
[7]
On the limited memory BFGS method for large scale optimization.[J].Dong C. Liu;Jorge Nocedal.Mathematical Programming.1989, 1-3
[8]
基于CRF的农业命名实体识别研究 [D]. 
王春雨 .
河北农业大学,
2014
[9]
基于条件随机场的《伤寒论》中医术语自动识别研究 [D]. 
孟洪宇 .
北京中医药大学,
2014