模式识别在烟草化学中的过拟合现象研究

被引:8
作者
居雷 [1 ]
朱仲良 [1 ]
陈磊 [2 ]
余苓 [2 ]
机构
[1] 同济大学化学系
[2] 上海烟草集团有限责任公司
关键词
多重共线性; 偏最小二乘判别分析; 过拟合;
D O I
暂无
中图分类号
TS411 [];
学科分类号
摘要
烟草化学建模过程中,化学成分间的多重共线性是常见的问题,使用偏最小二乘判别分析可以有效克服这一问题,但是模型容易出现过拟合的现象,即模型的构建效果好,但是预报能力差。本文选取湖南烟区3个种植大区,即湘南、湘中、湘西北种植的53种不同烟叶,使用偏最小二乘判别分析建立了烟叶主要化学指标与地区大类之间的模型,但是由于变量过多以及噪声的干扰,模型的预报精度差,偏最小二乘判别分析方法出现了过拟合现象,模型的稳健性受到破坏。本文采用了多种模式识别的方法,逐步筛选变量,准确提取出特征变量9个,对产地变量有更好的解释能力,并能够有效地在模型预测的过程中避免变量间的多重共线性以及仪器检测的噪声干扰,建立了有效的烟叶一产地识别模型。模型预报的准确率由未筛选变量之前的75%提高到87.5%,模型的稳健性得到很大提高,改善了模型的过拟合现象。
引用
收藏
页码:561 / 564
页数:4
相关论文
共 8 条
[1]
化学建模中几个重要问题的点滴思考.[A].梁逸曾;李洪东;.中国化学会第28届学术年会.2012,
[2]
Prediction of the identity of fats and oilsby their fatty acid; triacylglycerol and volatile compositions using PLS-DA..Van Ruth SM;Villegas B;Akkermans W; etal;.FoodChemistry.2010,
[3]
应用回归分析.[M].何晓群;刘义卿编著;.中国人民大学出版社.2001,
[4]
基于动态顶空成分的烟叶原料香型特征判别分析(英文) [J].
郜强 ;
余苓 ;
陈磊 ;
刘百战 ;
房鼎业 .
计算机与应用化学, 2012, 29 (03) :309-312
[5]
正交信号校正用于偏最小二乘建模过拟合现象的研究.[J].张娴;袁洪福;郭峥;宋春风;李效玉;谢锦春;.光谱学与光谱分析.2011, 06
[6]
顶空-气相色谱法进展 [J].
王昊阳 ;
郭寅龙 ;
张正行 ;
安登魁 .
分析测试技术与仪器, 2003, (03) :129-135
[7]
回归模型的最佳变量子集合选择 [J].
罗积玉 ;
邢瑛 .
数学的实践与认识, 1987, (03) :22-28
[8]
赤池信息量准则 AIC 及其意义 [J].
刘璋温 .
数学的实践与认识, 1980, (03) :64-72