基于偏最小二乘的泰国菠萝出口影响因素实证研究

(整期优先)网络出版时间:2014-11-21
/ 3

基于偏最小二乘的泰国菠萝出口影响因素实证研究

郭婷婷戴琳付光辉

郭婷婷GUOTing-ting曰戴琳DAILin曰付光辉FUGuang-hui(昆明理工大学理学院,昆明650500)(FacultyofScience,KunmingUniversityofScienceandTechnology,Kunming650500,China)

摘要院本文采用偏最小二乘回归模型(PLS),以泰国菠萝贸易为例,通过变量投影重要性准则筛选自变量,由交叉有效性提取主成分,进而建立偏最小二乘回归模型。深入分析了各指标对泰国菠萝出口贸易的影响。研究表明泰国菠萝出口与原料价格及工厂生产加工速度密切相关,并且偏最小二乘回归的拟合效果优于普通最小二乘回归。

Abstract院Basedonthepartialleast(PLS)method,forexampleofthefactorsthateffectonThaipineappleexports,weselectvariablesbyvariableimportanceinprojectionandextractprincipalcomponentsviacrossvalidation,thenestablishthepartialleastsquaremodels.WeanalyzetheimpactofeachindicatoronThaipineappleexportsdeeply.StudieshaveshownthatThaipineappleexportsareclosedrelatedtotherawmaterialpricesandthespeedofproductionandprocessinginfactories,andtheeffectsofpartialleastsquaresregressionfitbetterthanordinaryleastsquaresregression.关键词院泰国菠萝;偏最小二乘回归;交叉有效性Keywords院Thaipineapple;partialleastsquaresregression;crossvalidation中图分类号院F746.12文献标识码院A文章编号院1006-4311(2014)31-0009-03

0引言目前,泰国已成为全球最大的菠萝生产国和出口国。

泰国菠萝贸易主要有菠萝罐头、菠萝果汁及冰菠萝。2000-2005年,中国(台湾省除外)平均每年进口菠萝罐头1.75万吨,其中进口泰国菠萝罐头最多,平均为0.42万吨,占到了总进口量的23.90%。所以,无论是对国际菠萝罐头市场,还是对于中国菠萝罐头的国际贸易,泰国菠萝都居于十分重要的地位。因此,考察泰国菠萝的生产和加工状况、研究泰国菠萝的贸易趋势、探讨泰国菠萝产业发展的内在原因,具有十分重要的意义。

目前有灰色关联分析引力模型及普通最小二乘回归等方法的研究。由于研究方法的不同,菠萝出口影响因素也有所不同。在影响菠萝出口的众多因素中,各个指标之间存在多重共线性,偏最小二乘回归不失为能有效解决这个问题的方法之一。它结合了主成分分析、典型相关分析和多元线性回归分析的优点,能够较好地解决多重相关性的问题和样本个数少于变量个数及因变量为多个等问题。

本文采用偏最小二乘回归模型,选取了14个指标分别对菠萝罐头出口数量,菠萝果汁出口数量,冰菠萝出口数量影响因素进行研究,并对各个选取因素对菠萝贸易的影响进行分析。研究结果表明,泰国菠萝出口贸易影响因素主要为原料及工厂生产加工两个方面。

1指标选取与研究方法1.1指标选取泰国菠萝贸易主要为菠萝罐头、菠萝果汁以及冰菠萝。因此,本文因变量为:菠萝罐头出口数量y1(吨),菠萝果汁出口数量y2(吨),冰菠萝出口数量y3(吨)。自变量为:菠萝罐头出口价格x1(泰铢/吨),菠萝果汁出口价格x2(泰铢/吨),冰菠萝出口价格x3(泰铢/吨),菠萝农贸价格x4(泰铢/公克),农民卖菠萝的工厂价格x5(泰铢/公克),白糖价格x6(泰铢/公克),工厂菠萝产量x7(吨),产出菠萝罐头数量x8(吨),菠萝罐头产出指数x9(%),生产菠萝罐头的速度x10(%),消费物价指数x11(%),农产品价格指数x12(%),通货膨胀率x13(%),美元兑泰铢汇率x14(泰铢/美元)。

本文数据是120个样本,每个月是一个样本。这些数据来源于泰国农业和森林部及泰国央行,并根据上述指标进行整理。(数据见附表1)数据处理主要运用SPSS、MATLAB等统计分析软件。

1.2研究方法本文因变量有3个,自变量有14个,样本量为120。变量之间存在多重相关性,鉴于此,本文采用偏最小二乘回归方法来分析泰国菠萝贸易的影响因素。

偏最小二乘回归提供了一种多对多线性回归建模的方法,与传统多元线性回归模型相比,它具有以下优点:淤能够再自变量存在严重多重相关性的条件下进行回归建模;于允许在样本点个数少于变量个数的条件下进行回归建模;盂偏最小二乘回归在最终模型中包含原有的所有自变量;榆偏最小二乘回归模型更易于辨识信息系统与噪声(甚至一些非随机性的噪声);虞在偏最小二乘回归模型中,每一个自变量的回归系数将更容易被解释。

1.2.1偏最小二乘回归步骤偏最小二乘回归的步骤如下:淤假设有p个因变量y1、y2、…yp与m个自变量x1、x2、…、xm,收集了n个样本点,因此得到因变量和自变量的数据阵Y和X;从X中提取第一个成分t1(t1是尽可能多的包含X变异信息的线性组合),同时从Y中提取第一个成分u1(u1是尽可能多的包含Y变异信息的线性组合),同时还必须满足t1与u1的相关程度达到最大,则得到第一对成分t1和u1;于在第一对成分被提取后,分别实施X对t1的回归以及Y对t1的回归,如果回归方程已达到满意的精度,则算法终止,否则继续第二对成分的提取(此时用y1、y2、…yp与t1的回归残差阵F1和x1、x2、…、xm与t1的回归残差阵E1代替Y和X,重复t1和u1的提取步骤,得到t1和u2);盂分别建立F1和E1与t2的回归方程,如果回归方程达到满意的精度,则算法终止。如此往复,直到取得满意的精度为止;榆若最终从X中提取了r个成分t1,t2,…,tr,从Y中提取了r个成分u1,u2,…,ur,可先建立y1、y2、…yp与t1,t2,…,tr的回归方程,然后再表示为y1、y2、…yp与x1、x2、…、xm的回归方程,此即为偏最小二乘回归方程式。

1.2.2交叉有效性在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。设yij为第j个因变量第i个样本的原始数据,t1,t2,…,tr为提取的成分,y赞hji是使用全部样本点并取t1~th个成分回归建模之后,第i个样本点的拟合值。y赞hj(-i)为删去样本点i,同样取t1~th个成分回归建模后,再用此模型计算的yij的拟合值。

对第j个因变量交叉有效性定义如下:Q2hj=1-PRESShjSS(h-1)j其中SShj=ni=1移yij-y赞蓸hji蔀2,PRESShj=ni=1移yij-y赞蓸hj(-i)蔀2对全部因变量Y,成分th的交叉有效性定义为:Q2h=1-qj=1移PRESShjqj=1移SS(h-1)k=1-PRESShSS(h-1)一般认为,当Q2h叟0.0975时,引进新的成分th对模型的预测能力有明显的改善作用。

1.2.3变量投影重要性准则变量投影重要性是指自变量xi在解释因变量yj时的重要性。其定义为:VIPij=prh=1移R蓸y,th蔀w2ihrh=1姨移R蓸y,th蔀式中:p是自变量个数;r是偏最小二乘方法从原变量中提取的成分个数;th代表第h个成分;R蓸y,th蔀代表成分th对因变量yj的解释能力,为二者相关系数的平方;而wih是轴wh的第i个分量。一般地,VIPij值大于1,说明有更加重要的作用,VIPij值在0.5~1之间,作用不明确,VIPij值小于0.5,基本没有意义。

1.2.4模型的预测精度为了分析模型的预测能力,一般会采用一些指标来判断模型的预测精度,常用的有:淤复测定系数R2R2=1-(SSR/SSY)式中,SSR=ni=1移yi-y赞蓸i蔀2为残差平方和,SSY=ni=1移蓸yi-y軃蔀2为总偏差平方和;y赞i为预测值,yi为真值,y軃为真值的平均值,n为预测样本数。

复测定系数反映了一个因变量与所有自变量的相关程度,取值在0到1之间。复测定系数越接近1,表明因变量与自变量之间相关程度越显著,回归效果越好。R2>0.7表示数据得到了可信的表示,R2>0.9表示拟合效果较好。

于相对预测误差RPERPE=ni=1移yi-y赞ini=1移yi式中,y赞i为预测值,yi为真值,n为预测样本数。

2模型建立用MATLAB对数据进行偏最小二乘回归,首先对数据进行标准化处理,根据上述算法推导,数据标准化之后即得到E0和F0,首先提取第一个主成分t1,w1是矩阵E忆0F0F忆0E0的最大特征值对应的特征向量。经计算,w1=(-0.2341,0.1926,-0.0006,0.2030,0.1966,-0.1957,-0.1828,-0.4148,-0.4770,-0.4758,-0.2655,-0.2096,0.0435,0.1191)忆所以由t1=E0w1可以得到第一个主成分。又因为E0=t1p1+E1,且p1=E忆0t1||t1||2,因此根据E1=E0-t1p忆1求得E1,将其替代E0,继续上面的计算,直到提取的成分算出的交叉有效性小于0.0975,即可停止迭代。

经计算上述两个成分的交叉有效性如表1所示。

假设第一个成分的交叉有效性为1,从表中可以看出,第二个成分的交叉有效性是0.0740,所以引进前两个成分对模型的预测能力有明显的改善。

另外,各个变量的VIP值也可算出,除x13对y1,y2,y3的VIP值分别等于0.222,0.2025,0.3335其余变量的VIP值均大于0.5。即通货膨胀率x13对泰国菠萝出口贸易基本没有影响,因此可剔除x13,再进行偏最小二乘回归。

用MATLAB对剔除通货膨胀率x13后的数据重新做偏最小二乘回归,此时,自变量有13个,因变量为3个。

偏最小二乘回归提取两个主成分,得到各因变量的VIP值。除了冰菠萝出口价格x3对菠萝果汁出口数量y2的VIP值小于0.5,其余均大于0.5。即冰菠萝出口价格x3对菠萝果汁出口数量y2基本没有影响,其余自变量均对因变量有影响。

得到标准偏最小二乘回归方程如下:y1=-0.122x1-0.085x2-0.041x3-0.099x4-0.092x5+0.048x6+0.091x7+0.183x8+0.210x9+0.209x10+0.104x11+0.071x12-0.006x14y2=-0.066x1-0.051x2-0.009x3-0.055x4-0.053x5+0.043x6+0.050x7+0.109x8+0.125x9+0.125x10+0.067x11+0.050x12-0.021x14y3=-0.120x1-0.055x2-0.122x3-0.085x4-0.070x5-0.058x6+0.081x7+0.118x8+0.131x9+0.129x10+0.036x11-0.005x12+0.102x14预测值和观测值的比较如图1所示。

表1交叉有效性临界值0.09750.0975成分个数Q2h121.00000.0740图1伊104y16420伊104伊104y2024601234伊104y343210200015001000图1显示,菠萝罐头出口数量、菠萝果汁出口数量及冰菠萝出口数量的观测值和预测值相差不大,基本在一条直线上,说明用偏最小二乘回归模型对泰国菠萝贸易作预测是相当满意的。经计算,可得表2所示结果。从复测定系数R2可知,模型的预测效果很好,相对预测误差很小,模型预测效果很好。相关系数矩阵显示数据之间存在严重的多重相关性。显然,运用普通的最小二乘回归效果不好。而运用偏最小二乘回归模型的结果可以看出回归效果很好。标准回归系数图如图2。

3总结泰国菠萝生产量长期居世界首位。2012年6月15日泰国内阁会议批准农业部关于2010至2014年菠萝产业战略规划。该规划的核心是全力保持泰国菠萝生产与出口世界第一的地位,制定了到2014年菠萝种植面积扩大为60万莱(1莱合1600平方米),单位产量由2009年的每莱3.9吨提高至6吨,新鲜菠萝出口额达到1.1亿泰铢,菠萝加工制品出口额达到300亿泰铢等目标。本文用偏最小二乘方法对泰国菠萝出口贸易进行了分析,从偏最小二乘得到的两个成分可以看到影响泰国菠萝出口贸易的因素大致分为两种。原材料方面:泰国菠萝原材料存在时而短缺、时而过量上市,这就造成了价的不稳定性。此外,泰国菠萝种植普遍存在单产低、成本高的问题。因此建议开展提高菠萝单位面积产量方面的研究工作,构建原料和菠萝罐头生产的供需平衡,同时加工厂出口生产所需的原料应从工厂周边得到供应。工厂加工方面:对加工工厂来说,从千百个孤立、分散的小型农户那里获得稳定的符合质量要求的菠萝货源十分重要,同时还要注重工厂的专业化、产业化和一体化生产,增强原材料的利用率,改善生产速率。

参考文献院[1]伍丽朝,谭砚文.泰国的菠萝产业[J].世界农业,2009,5(361):41-44.[2]泰铢不停升值影响泰国菠萝罐头外销[N].越南共产党电子报,2010-09-30.[3]郭婷.泰国的热带水果产业[N].国际商报,2006-11-14.[4]王惠文.偏最小二乘回归方法及其应用[M].国防工业出版社,1999.[5]董梅生.中国农业投入和产出的关系—基于偏最小二乘回归[J].技术经济,2009,28(1):37-41.[6]章家清,张磊.中国对东盟水果出口增长因素分析—基于恒定市场份额模型的实证分析[J].经济问题探索,2012,8:134-138.[7]霍尚一.中国水果出口贸易影响因素的实证分析[D].浙江:浙江大学,2008:1-200.[8]程绍南.泰国菠萝产业新动向[J].中国果业信息,2006,23(6):29-30.