Quantcast
Channel: stata培训 –数据分析
Viewing all 94 articles
Browse latest View live

面板数据回归结果分析_面板数据的回归结果怎么分析

$
0
0

面板数据回归结果分析_面板数据的回归结果怎么分析

这几幅图是我做出的回归可我看不懂额QAQ

分别说明一下这三幅图的结果行么?感激不尽QAQ

面板数据回归结果分析_面板数据的回归结果怎么分析

面板数据回归结果分析_面板数据的回归结果怎么分析

面板数据回归结果分析_面板数据的回归结果怎么分析

这个没什么复杂吧 ,跟普通回归的解释方法一样。
先看prob>F的值 也就是p的值  <0.05,说明在0.05水平上 你这个回归模型有显著意义。调整的R²=0.0439,就是模型对因变量的解释率
然后下面那个就是回归分析的各个自变量的参数估计表格。从p的值可以看出,只有rate和age两个自变量对因变量有显著影响,且rate是负影响。
那个图就是个相关分析矩阵,每个小方块的散点图表示对应两个变量之间的相关性描述。
最下面那个表 是 rate、age、degree三个变量之间的两两相关分析矩阵表,一行是相关系数一行是显著性检验的p值
请问散点图怎么看?密集?整齐?我知道问题很基础T^T 麻烦你了
追答:
散点图没有什么看的方法,只是根据经验,看是否呈线性趋势、是否呈某些曲线趋势,是否是随机分布的,是否是均匀分布的

转载请注明:数据分析 » 面板数据回归结果分析_面板数据的回归结果怎么分析


stata回归结果分析_stata回归结果怎么看_stata回归结果解释

$
0
0

stata回归结果分析

关键词: stata回归结果怎么看,stata回归结果解释,stata回归结果

huigui

刚刚学习sata软件,建立了一个受教育年限、工作起薪以及性别对工资收入的影响模型,得出以下结果,不知道模型分析的结果应该怎么写呢?

求帮助:

经典回答1:
(1)由于F检验的P值为0,模型总体是统计显著的,模型较好
(2)R方接近80%,说明模型的拟合度很高,模型较好
(3)教育年限变量和工资具有统计显著的正相关关系(原因:t检验的P值为0),其他因素不变,教育年限每增加1年,工资平均增长990元。
(4)工作起薪变量和工资具有统计显著的正相关关系(原因:t检验的P值为0),其他因素不变,工作起薪每增加1元,工资平均增长1.6元。
(5)性别变量和工资在5%的显著性下相关(我不知道你性别变量怎么设的,一般是男=1,女=0,我按这个写的,如果不是请告知),男性比女性在其他因素不变的情况下平均多1593元工资。

经典回答2:

上面左侧的表是用来计算下面数据的,分析过程中基本不用提到

右侧从上往下

1.Number of obs 是样本容量

2.F是模型的F检验值,用来计算下面的P>F

3.P>F是模型F检验落在小概率事件区间的概率,你的模型置信水平是0.05,也就是说P>F值如果大于0.05,那么模型就有足够高的概率落在F函数的小概率区间,简单的说,如果这个值大于0.05你这个模型设定有就问题,要重新设定模型

4.R-squard也就是模型的R²值,拟合优度,这个数越大你的模型和实际值的拟合度就越高,模型越好

5.Adj .R-squard 这个是调整过的R²,跟上面R²差不多,关注一个就行了

6.Root mse 是残差标准差,值越大残差波动越大,模型越不稳定(这个值我分析的时候一般不太关注)

下侧表格

  1. coef.是估计得到的系数值
  2. std.err是标准差,这个数有重要意义,一般论文里都要求把标准差表示出来,这个数越大模型越不精确,越小越好
  3. t是t检验值,t检验是用来检验某个系数是否显著区别于0的,在分析中这个值一般没什么意义,主要用来计算P>t
  4. P>t,这个值是观察某个解释变量是否有效的主要参数,还是对于你设置的0.05的置信水平,如果这个值大于0.05说明对应的解释变量不能通过t检验,在模型中是不合格的,就需要作调整
  5. 后面两个就是置信区间了,95%的置信区间,一般在论文中意义也不大

然后分析就选取你有用的参数做了,我学经济的,一般最有用的参数就是P>F,coef,P>t,se等等,还有BIC,VIF这些,在简单回归里这些是不会计算的,需要其他命令

转载请注明:数据分析 » stata回归结果分析_stata回归结果怎么看_stata回归结果解释

stata中面板数据回归分析的结果该怎么分析

$
0
0

stata中面板数据回归分析的结果该怎么分析

关键词:stata面板回归分析 stata面板数据回归 stata做面板数据回 面板数据回归分析

小弟第一次用stata做面板数据的回归分析 想知道得出来的结果该怎么分析,谢谢各位大神解答了

stata中面板数据回归分析的结果该怎么分析

结果的前两行表示模型的类别,LZ采用的为randomeffect随机模型,截面变量:province,样本数目310.群组数目31,也就是每组10个观测值。

3-5行表示模型的拟合优度,分别为within,between,overall,组内,组间,总体三个层次。

6-7行表示针对参数联合检验的wald chi2检验和Pvalue,p=0.000表示参数整体上灰常显著。

8-10行表示解释变量的估计权重,截距,标准差,Z统计量,P值及95%置信区间。这块儿跟截面回归的产出结果是一样的,关于你的解释变量base的权重解释是,在其他多有条件都不变的情况下,base每增加一单位,city会增加0.0179单位,P值0.000,灰常显著。

最后三行分别是随机效应模型中个体效应和随机干扰项的方差估计值,分别为sigma_u, sigma_e. 以上两者之间的关系rho.

需要注意的是你的模型拟合度不高,R方只有26%,当然这要看具体是哪方面的研究以及同方向其他学者的拟合结果,如果大家都在20多,那就OK。
追问:
真是太感谢大神了,还想问下上面的结果如何以方程式的结果呈现出来
追答:
简单的用方程表现回归结果是:

city        =  0.4088    +     0.0179base
s.d.                           0.0249           0.0225
Z                               16.40             6.95
P-value                     0.000              0.000

转载请注明:数据分析 » stata中面板数据回归分析的结果该怎么分析

分析STATA回归分析的结果_stata回归结果怎么看

$
0
0

分析STATA回归分析的结果

关键词:stata面板数据回归  stata回归结果分析 stata回归结果输出

STATAhuiguifenxi

一般是分析哪几个指标?

R方是看调整后的吗?

第三个表最后两列是什么意思啊?

怎么看是在95%水平显著还是90%水平显著呢?

这个结果能输出到EXCEL里面或者弄成表格形式放到WORD里面吗?

dr的p>|t|的值是0.095,能够说明显著吗?还是说这代表在90%的水平显著?

最佳回答:
1.写出拟合方程 Y=0.0439636-0.1104272ret+0.3015505drret+0.0003205vr+0.0130717drvr+0.0061625retvr+0.0501226drretvr
2. 检查参数的符号(正号/负号)是否符合你要建立模型的基本理论
3. 表1 第一列,ss 从上到下分别代表 回归平方和(ESS)、残差平方和(RSS)、总离差平方和(TSS) 第二列为自由度 第三列不记得了
4. 表2 分别为 观测值、F值、P{P>F}值、R^2、调整后的R^2 、残差标准差hatδ,我觉得可以看调整后的R^2,但影响不大。 你的P值=0,说明不是联合显著
5. 表3 第一列为参数值,我已经给你写出。 第二列为标准误,一般在输出结果时要在参数下用括号写出标准误。第三列为t值,第四列为P值,看它是否显著应先看t在临界值之内还是之外、再看P值吧。你的t值全都小于1.96,好像是在95%的显著水平上不显著的吧。你查查表。 最后两列表示95%的置信区间哦。
6. 你可以截屏放在word里,我一直是这样做的
7. 你的估计参数是不是有点多了呢,我觉得需要改进下,提高显著性

其他回答:

分析最主要看你标的3的那个表格里,coef下面是系数,std是标准差
真实数据分析R2其实没什么大不了的,不必太在意
看变量的显著水平看P》t那列,小于0.05的就是95%水平显著,小于0.1的就是90%水平显著
这个表格一般我就直接截图了。。你这里显著的也就前三个。。

 

转载请注明:数据分析 » 分析STATA回归分析的结果_stata回归结果怎么看

稳健性检验_ 稳健性检验的方法_spss稳健性检验

$
0
0

稳健性检验_ 稳健性检验的方法_spss稳健性检验

稳健性检验考察的是评价方法和指标解释能力的强壮性,也就是当改变某些参数时,评价方法和指标是否仍然对评价结果保持一个比较一致、稳定的解释。
稳健性检验考察的是评价方法和指标解释能力的强壮性,也就是当改变某些参数时,评价方法和指标是否仍然对评价结果保持一个比较一致、稳定的解释。
通俗些,就是改变某个特定的参数,进行重复的实验,来观察实证结果是否随着参数设定的改变而发生变化,如果改变参数设定以后,结果发现符号和显著性发生了改变,说明不是稳健性的的,需要寻找问题的所在。
一般根据自己文章的具体情况选择稳健性检验:
1. 从数据出发,根据不同的标准调整分类,检验结果是否依然显著;
2. 从变量出发,从其他的变量替换,如:公司size可以用total assets衡量,也可以用total sales衡量;
3. 从计量方法出发,可以用OLS, FIX EFFECT, GMM等来回归,看结果是否依然robust;

转载请注明:数据分析 » 稳健性检验_ 稳健性检验的方法_spss稳健性检验

stata多重共线性检验_多重共线性检验_stata多重共线性vif

$
0
0

关键词:stata多重共线性检验多重共线性检验stata多重共线性vifstata共线性检验

模型如图:
stata多重共线性检验_多重共线性检验_stata多重共线性vif
想检验一下是否存在多重共线性,应该把模型里每一项都做相关分析吗?交互项也需要放吗?哑变量呢?
得到相关系数表之后应该怎么判断是否存在多重共线性?
统计学没学好= =,求指教。。

精彩回答:

一种是给出各变量的相关系数;还有一种是方差膨胀因子(VIF)检验。

追问:相关系数矩阵我会,方差膨胀因子(VIF)检验怎么弄呢?
得到相关系数矩阵后,相关系数怎么样才能得到我的模型可以用的结论呢?
是每个变量都要看相关系数还是交互项就不用了?

追答:交互项放进方程时,需要中心化处理,一般是用变量实际值减去均值后相乘,再放进方程,避免多重共线性。

————————————————————————————————————

精彩回答2:多重共线性的检验方法比较多也是可以分成几个层次来检验:一种是初步判断:如果回归完以后拟合优度和F统计量很大,而与此同时模型中应当显著的变量不显著或是没有一个变量是显著的,甚至参数估计量的正负号发生了改变,可以初步判定会存在多重共线性;二、进一步可以用逐步回归法,方差膨胀因子VIF来检验,一般情况下VIF大于5就表明存在较为严重的多重共线性,利用条件数来判断(STATA命令:coldiag2+自变量)如果条件数小于30,表明不存在共线性,在30到100之间表明存在一定程度的多重共线性,但不会对模型的回归与解释产生影响,如果高于100则表明存在严重的多重共线性。

问:如何用STATA解决多重共线性的问题?

答:

先用vif命令检测是否存在多重共线性
接着使用pca命令来做主成分分析找出主成分
或者用stepwise命令来进行逐步回归

转载请注明:数据分析 » stata多重共线性检验_多重共线性检验_stata多重共线性vif

如何用stata进行平稳性检验_stata平稳性检验

$
0
0

stata面板平稳性检验stata 平稳性检验命令stata残差平稳性检验stata做平稳性检验stata平稳性检验结果stata平稳性检验步骤

用stata进行平稳性检验的方法:
1、点击面板上的额ADF检验
2、在打开的对话框中输入命令dfuller,就开始了平稳性检验

Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。

Stata 的统计功能很强,除了传统的统计分析方法外,还收集了近 20 年发展起来的新方法,如 Cox 比例风险回归,指数与 Weibull 回归,多类结果与有序结果的 logistic 回归, Poisson 回归,负二项回归及广义负二项回归,随机效应模型等。

转载请注明:数据分析 » 如何用stata进行平稳性检验_stata平稳性检验

stata 如何做ADF单位根检验_stata adf检验

$
0
0

stata 如何做ADF单位根检验

关键词: stata adf检验 stata adf检验步骤 stata adf检验结果stata adf检验 命令

如题。看论文时,在考虑贸易顺差与外汇储备归回分析时,作者为防止出现伪回归,于是先做 adf单位根检验。
请问,ADF单位根检验是怎么一回事。用stata软件又如何操作呢?我对stata只是略懂。

解答:. webuse 变量名2
. dfuller 变量名
. dfuller 变量名, lags(3) trend
. dfuller 变量名, lags(3) trend regress

hlep dfuller 按照步骤去做一遍就会拉

 

转载请注明:数据分析 » stata 如何做ADF单位根检验_stata adf检验


非平衡面板数据的stata处理方法_非平衡面板数据 stata

$
0
0

非平衡面板数据的stata处理方法

关键词:非平衡面板数据 statastata 非平衡面板stata 平衡面板数据

有一组非平衡面板的数据,不会处理。主要是,  一 不知 如何把数据整理成为标准数据(是把没有的数据填充为0么?)
二 在stata处理非平衡面板数据的指令是什么?跟平衡面板处理指令一样么? 初学计量,可能问题表达不是很清楚。急请各位大神多多帮助。


精彩解答:采用stata11:把缺失数据设为某一个相同的值,如99,不要和其他值重复即可。导入数据后,采用命令
replace x=. if x==99,软件就会把所有等于99的值设为missing  然后按照平衡面板做就行了


为什么它说factor variables and time-series operators not allowed?怎么办

我后来用了这个命令,成功地把它变成了你说的那样,可是后来在用平衡面板数据单位根检验llc命令的时候,它说我的不是strongly balance,不可以用呢。。。。也就是说这种处理方法不行呢,stata还是把它作为非平衡数据,不可以用平衡数据的命令。。。。请问你自己这样处理后可以变平衡吗?还有没有别的办法?


精彩解答:采用最好就是把非平衡面板的数据都剔除掉,把它变成平衡的就行了。不需要再做其他的处理。


精彩解答:采用xtreg命令时,stata会自动把不平衡的数据删掉,只处理信息完整的数据。因为你的变量缺失太多,所以显示没有观测值。你可以删掉几个缺失值太多的变量再试试。

转载请注明:数据分析 » 非平衡面板数据的stata处理方法_非平衡面板数据 stata

面板数据的分析步骤_面板数据分析步骤_stata面板数据分析

$
0
0

面板数据的分析步骤

关键词:面板数据分析步骤、面板数据回归步骤、面板数据 stata 步骤stata面板数据分析

本文仅限于学术讨论,由于本人学术水平所限,对面板数据模型的讨论权当抛砖引玉,期待大家共同参与讨论,一方面为新手提供一个简单的入门捷径,另外也为面板数据模型中的难点加以探讨!(不喜勿拍砖

面板数据的分析方法或许我们已经了解许多了,但是到底有没有一个基本的步骤呢?那些步骤是必须的?这些都是我们在研究的过程中需要考虑的,而且又是很实在的问题。面板单位根检验如何进行?协整检验呢?什么情况下要进行模型的修正?面板模型回归形式的选择?如何更有效的进行回归?诸如此类的问题我们应该如何去分析并一一解决?以下是我近期对面板数据研究后做出的一个简要总结,和大家分享一下,也希望大家都进来讨论讨论。

步骤一:分析数据的平稳性(单位根检验)

按照正规程序,面板数据模型在回归前需检验数据的平稳性。李子奈曾指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联,此时,对这些数据进行回归,尽管有较高的R平方,但其结果是没有任何实际意义的。这种情况称为称为虚假回归或伪回归(spurious regression)。他认为平稳的真正含义是:一个时间序列剔除了不变的均值(可视为截距)和时间趋势以后,剩余的序列为零均值,同方差,即白噪声。因此单位根检验时有三种检验模式:既有趋势又有截距、只有截距、以上都无。

因此为了避免伪回归,确保估计结果的有效性,我们必须对各面板序列的平稳性进行检验。而检验数据平稳性最常用的办法就是单位根检验。首先,我们可以先对面板序列绘制时序图,以粗略观测时序图中由各个观测值描出代表变量的折线是否含有趋势项和(或)截距项,从而为进一步的单位根检验的检验模式做准备。

单位根检验方法的文献综述:在非平稳的面板数据渐进过程中,Levin andLin(1993) 很早就发现这些估计量的极限分布是高斯分布,这些结果也被应用在有异方差的面板数据中,并建立了对面板单位根进行检验的早期版本。后来经过Levin et al. (2002)的改进,提出了检验面板单位根的LLC 法。Levin et al. (2002) 指出,该方法允许不同截距和时间趋势,异方差和高阶序列相关,适合于中等维度(时间序列介于25~250 之间,截面数介于10~250 之间) 的面板单位根检验。Im et al. (1997) 还提出了检验面板单位根的IPS 法,但Breitung(2000) 发现IPS 法对限定性趋势的设定极为敏感,并提出了面板单位根检验的Breitung 法。Maddala and Wu(1999)又提出了ADF-Fisher和PP-Fisher面板单位根检验方法。

由上述综述可知,可以使用LLC、IPS、Breintung、ADF-Fisher 和PP-Fisher5种方法进行面板单位根检验。

其中LLC-T 、BR-T、IPS-W 、ADF-FCS、PP-FCS 、H-Z 分别指Levin, Lin & Chu t* 统计量、Breitung t 统计量、lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量、Hadri Z统计量,并且Levin, Lin & Chu t* 统计量、Breitung t统计量的原假设为存在普通的单位根过程,lm Pesaran & Shin W 统计量、ADF- Fisher Chi-square统计量、PP-Fisher Chi-square统计量的原假设为存在有效的单位根过程, Hadri Z统计量的检验原假设为不存在普通的单位根过程。

有时,为了方便,只采用两种面板数据单位根检验方法,即相同根单位根检验LLC(Levin-Lin-Chu)检验和不同根单位根检验Fisher-ADF检验(注:对普通序列(非面板序列)的单位根检验方法则常用ADF检验),如果在两种检验中均拒绝存在单位根的原假设则我们说此序列是平稳的,反之则不平稳。

如果我们以T(trend)代表序列含趋势项,以I(intercept)代表序列含截距项,T&I代表两项都含,N(none)代表两项都不含,那么我们可以基于前面时序图得出的结论,在单位根检验中选择相应检验模式。

但基于时序图得出的结论毕竟是粗略的,严格来说,那些检验结构均需一一检验。具体操作可以参照李子奈的说法:ADF检验是通过三个模型来完成,首先从含有截距和趋势项的模型开始,再检验只含截距项的模型,最后检验二者都不含的模型。并且认为,只有三个模型的检验结果都不能拒绝原假设时,我们才认为时间序列是非平稳的,而只要其中有一个模型的检验结果拒绝了零假设,就可认为时间序列是平稳的。

此外,单位根检验一般是先从水平(level)序列开始检验起,如果存在单位根,则对该序列进行一阶差分后继续检验,若仍存在单位根,则进行二阶甚至高阶差分后检验,直至序列平稳为止。我们记I(0)为零阶单整,I(1)为一阶单整,依次类推,I(N)为N阶单整。

步骤二:协整检验或模型修正

情况一:如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。因此协整的要求或前提是同阶单整。

但也有如下的宽限说法:如果变量个数多于两个,即解释变量个数多于一个,被解释变量的单整阶数不能高于任何一个解释变量的单整阶数。另当解释变量的单整阶数高于被解释变量的单整阶数时,则必须至少有两个解释变量的单整阶数高于被解释变量的单整阶数。如果只含有两个解释变量,则两个变量的单整阶数应该相同。

也就是说,单整阶数不同的两个或以上的非平稳序列如果一起进行协整检验,必然有某些低阶单整的,即波动相对高阶序列的波动甚微弱(有可能波动幅度也不同)的序列,对协整结果的影响不大,因此包不包含的重要性不大。而相对处于最高阶序列,由于其波动较大,对回归残差的平稳性带来极大的影响,所以如果协整是包含有某些高阶单整序列的话(但如果所有变量都是阶数相同的高阶,此时也被称作同阶单整,这样的话另当别论),一定不能将其纳入协整检验。

协整检验方法的文献综述:(1)Kao(1999)、Kao and Chiang(2000)利用推广的DF和ADF检验提出了检验面板协整的方法,这种方法零假设是没有协整关系,并且利用静态面板回归的残差来构建统计量。(2)Pedron(1999)在零假设是在动态多元面板回归中没有协整关系的条件下给出了七种基于残差的面板协整检验方法。和Kao的方法不同的是,Pedroni的检验方法允许异质面板的存在。(3)Larsson et al(2001)发展了基于Johansen(1995)向量自回归的似然检验的面板协整检验方法,这种检验的方法是检验变量存在共同的协整的秩。

我们主要采用的是Pedroni、Kao、Johansen的方法。

通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的。因此可以在此基础上直接对原方程进行回归,此时的回归结果是较精确的。
这时,我们或许还想进一步对面板数据做格兰杰因果检验(因果检验的前提是变量协整)。但如果变量之间不是协整(即非同阶单整)的话,是不能进行格兰杰因果检验的,不过此时可以先对数据进行处理。引用张晓峒的原话,“如果y和x不同阶,不能做格兰杰因果检验,但可通过差分序列或其他处理得到同阶单整序列,并且要看它们此时有无经济意义。”

下面简要介绍一下因果检验的含义:这里的因果关系是从统计角度而言的,即是通过概率或者分布函数的角度体现出来的:在所有其它事件的发生情况固定不变的条件下,如果一个事件X的发生与不发生对于另一个事件Y的发生的概率(如果通过事件定义了随机变量那么也可以说分布函数)有影响,并且这两个事件在时间上又有先后顺序(A前B后),那么我们便可以说X是Y的原因。考虑最简单的形式,Granger检验是运用F-统计量来检验X的滞后值是否显著影响Y(在统计的意义下,且已经综合考虑了Y的滞后值;如果影响不显著,那么称X不是Y的“Granger原因”(Granger cause);如果影响显著,那么称X是Y的“Granger原因”。同样,这也可以用于检验Y是X的“原因”,检验Y的滞后值是否影响X(已经考虑了X的滞后对X自身的影响)。

Eviews好像没有在POOL窗口中提供Granger causality test,而只有unit root test和cointegration test。说明Eviews是无法对面板数据序列做格兰杰检验的,格兰杰检验只能针对序列组做。也就是说格兰杰因果检验在Eviews中是针对普通的序列对(pairwise)而言的。你如果想对面板数据中的某些合成序列做因果检验的话,不妨先导出相关序列到一个组中(POOL窗口中的Proc/Make Group),再来试试。

情况二:如果如果基于单位根检验的结果发现变量之间是非同阶单整的,即面板数据中有些序列平稳而有些序列不平稳,此时不能进行协整检验与直接对原序列进行回归。但此时也不要着急,我们可以在保持变量经济意义的前提下,对我们前面提出的模型进行修正,以消除数据不平稳对回归造成的不利影响。如差分某些序列,将基于时间频度的绝对数据变成时间频度下的变动数据或增长率数据。此时的研究转向新的模型,但要保证模型具有经济意义。因此一般不要对原序列进行二阶差分,因为对变动数据或增长率数据再进行差分,我们不好对其冠以经济解释。难道你称其为变动率的变动率?

步骤三:面板模型的选择与回归

面板数据模型的选择通常有三种形式:

一种是混合估计模型(Pooled Regression Model)。如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。

一种是固定效应模型(Fixed Effects Regression Model)。又分为三种:时期固定效应、个体固定效应、时间个体双固定效应。这是文献中常常被人忽视的,但是如果在空间面板数据下,这种区分非常必要和有价值!而在stata中实现有一定的难度。固定效应的各种模型的选择用固定效应的F检验实现。

对于混合回归和固定效应的选择一般采用Wald检验或者似然比检验。

如果对于不同的截面或不同的时间序列,模型的截距不同,则可以采用在模型中添加虚拟变量的方法估计回归参数。一种是随机效应模型(Random Effects Regression Model)。如果固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,并且这两个随机误差项都服从正态分布,则固定效应模型就变成了随机效应模型。

在面板数据模型形式的选择方法上,我们经常采用F检验决定选用混合模型还是固定效应模型,然后用Hausman检验确定应该建立随机效应模型还是固定效应模型。

检验完毕后,我们也就知道该选用哪种模型了,然后我们就开始回归:

在回归的时候,权数可以选择按截面加权(cross-section weights)的方式,对于横截面个数大于时序个数的情况更应如此,表示允许不同的截面存在异方差现象。估计方法采用PCSE(Panel Corrected Standard Errors,面板校正标准误)方法。Beck和Katz(1995)引入的PCSE估计方法是面板数据模型估计方法的一个创新,可以有效的处理复杂的面板误差结构,如同步相关,异方差,序列相关等,在样本量不够大时尤为有用。

结合之前写的帖子:

STATA固定效应的时间固定和个体固定效应估计方法、检验策略和操作步骤

(http://www.cdadata.com/7849)

可以实现很好的应用!

祝新年快乐!

请问如果我使用的是基于非平衡面板数据的联立方程,是不是也需要先使用上面的步骤处理面板数据

答:不需要,当然做面部单位根、协整和格兰杰因果检验也是可以的,REG3只能处理截面联立方程


不需要,当然做面部单位根、协整和格兰杰因果检验也是可以的,REG3只能处理截面联立方程

谢谢。1、您是说选择混合模型还是随机效应固定效应是不需要检验的对吧?能简单说一下原因吗?2、数据只有八九年,是不是单位根检验也可以不做了?3、reg3不能做面板数据的联立方程,那您知道哪个命令可以做吗?非常愿意向你学习,再次感谢。


1、您是说选择混合模型还是随机效应固定效应是不需要检验的对吧?能简单说一下原因吗?2、数据只有 …

如果你不是用最基本的方法来做面板数据回归,如XTREG命令,那么基本上不需要考虑固定效应和随机效应,但是最好是知道模型是适用固定效应还是随机效应,一般的模型基本上都是设定采用固定效应的。面板单位根和协整最好做,以验证数据是平稳的,否则数据不平稳,只能采用非平稳面板FMOLS和DOLS来估计。面板数据先组内去心,再用REG3做


如果你不是用最基本的方法来做面板数据回归,如XTREG命令,那么基本上不需要考虑固定效应和随机效应,但是 …

您好,我在网上看到组内去心是   xtdata y x1 x2, fe clear   但我的联立方程中有两个方程,也就是有两个因变量y,那我只要把两个方程中所用到的所有变量放到上面命令中“y x1 x2”的位置那就行,对吗?然后直接用reg3(y1 x1 x2)(y2 x3 x4)对联立方程估计就可以了?还有几点疑惑想请教,我的qq1132558878,如果方便,可以加q。总之,先谢,非常感谢。

转载请注明:数据分析 » 面板数据的分析步骤_面板数据分析步骤_stata面板数据分析

如何用stata进行变量间相关性分析,把星星和p值都显示出来

$
0
0

如何用stata进行变量间的相关性分析,要把星星和p值都显示出来

关键词: stata 相关性 星星stata变量相关性分析stata变量相关性检验

—精彩解答:

stata 里面分析相关性的命令是

 pwcorr a   b  c  d  e , sig  

结果就有了包括了显著性的判断标准,stata里面没有星星,直接根据sig,也就是p的值来判断是否显著就好了

其他回答:
我一般只用星号表达一下显著性水平即可

譬如
sysuse auto
pwcorr price headroom mpg displacement, star(.01) bonferroni
是把显著性水平为1%的打星星

转载请注明:数据分析 » 如何用stata进行变量间相关性分析,把星星和p值都显示出来

混合OLS模型、固定效应模型、随机效应模型的区别是什么

$
0
0

混合OLS模型、固定效应模型、随机效应模型的区别是什么

关键词:混合ols 固定效应,固定效应还是混合ols,stata随机效应模型,面板数据随机效应模型

1.混合估计模型就是各个截面估计方程的 截距和斜率项都一样,也就是说回归方程估计结果在截距项和斜率项上是一样的
2.随机效应模型和固定效应模型则认为回归方程估计结果在截距项和斜率项上是不一样的,所以你可以选择变截距模型,也可以选择变系数模型
3.随机效应和固定效应模型的区别在于,随机效应模型认为误差项和解释变量不相关,而固定效应模型认为误差项和解释变量是相关的.


那平时做面板数据分析的时候是三者则其一,还是可以则其二啊?我看到一个研究同时用了混合模型和固定效应模型


用一个就可以了,你要先进行方法检验啊,用eviews可以检验面板数据适用于混合估计法还是固定效应法
然后再进行豪斯曼检验,确定是用固定效应模型还是随机效应模型
stata也可以,不过我不会用stata


混合模型被定义为
y_(i,t)=α+X_(i,t) β+ε_(i,t),i=1,2,…,N;  t=1,2,…,T
其中y_(i,t)为被回归变量(标量),α为截距项,X_(i,t)为k×1阶回归变量列向量(包括k个回归量),β为k×1阶回归系数列向量,ε_(i,t)为误差项(标量)。混合模型的特点是无论对任何个体和界面,回归系数α和β都相同。如果模型是正确设定的,解释变量与误差项不相关,即Cov(X_(i,t),ε_(i,t) )=0。那么无论是N→∞,还是T→∞,模型参数的混合最小二乘估计量(Pooled OLS)都是一致估计量。
4.2.2 个体固定效应模型
个体固定效应模型被定义为
y_(i,t)=α_i+X_(i,t) β+ε_(i,t),i=1,2,…,N;t=1,2,…,T
其中α_i是随机变量,表示对于i个个体有i个不同的结局想,且其变化与X_(i,t)有关系;X_(i,t)为k×1阶回归变量列向量(包括k个回归量),β为k×1阶回归系数列向量,对于不同个体回归系数相同,y_(i,t)为被回归变量(标量),ε_(i,t)为误差项(标量),则称此模型为个体固定效应模型。
4.2.3随机效应模型
随机效应模型被定义为
y_(i,t)=α_(i,t)+X_(i,t) β+ε_it,i=1,2,…,N;t=1,2,…,T
如果α_(i,t)为随机变量,其分布与X_(i,t)无关;X_(i,t)为k×1阶回归变量列向量(包括k个回归量),β为k×1阶回归系数列向量,对于不同个体回归系数相同,y_(i,t)为被回归变量(标量),ε_it为误差项(标量)。


那平时做面板数据分析的时候是三者则其一,还是可以则其二啊?我看到一个研究同时用了混合模型和固定效应 …

至于三个模型的选择,一般需要使用检验方法进行确定。具体步骤如下:
(1)首先判断采用固定效用模型还是混合效应模型
首先对模型进行固定效应模型回归,再进行LR检验,若检验结果显著则属于固定效应模型,否则属于混合效应模型;
(2)在此基础上,判断采用固定效应模型or随机效应模型
首先对模型进行随机效应模型回归,再进行Hausman检验,如果结果显著,则属于固定效应模型,否则属于随机效应模型。
至于LR检验和Hausman检验,操作比较简单,不做赘述。


一般来说判断方法是根据I2来确定。
1.就是根据I2值 来决定模型的使用,大部分认为>50%,存在异质性,使用随机效应模型,≤50%,用固定效应模型,有了异质性,通过敏感性分析,或者亚亚组分析,去探求 异质性的来源,但是这两者都是定性的,不一定能找到,即使你做了,研究数目多的话,可以做个meta回归来找异质性的来源
2.在任何情况下都使用随机效应模型,因为如果异质性很小,那么随即和固定效应模型最终合并结果不会有很大差别,当异质性很大时,就只能使用随机效应模型,所以可以说,在任何情况下都使用随机效应模型
3.还有一种,看P值,一般推荐P的界值是0.1,但现在大部分使用0.05,就是说P>0.05,用固定,≤0.05用随机效应模型。

转载请注明:数据分析 » 混合OLS模型、固定效应模型、随机效应模型的区别是什么

stata面板数据模型分析的详细步骤和命令

$
0
0

stata面板数据模型分析的详细步骤和命令

关键词:面板回归步骤 stata stata面板回归命令stata面板数据命令 面板var的stata命令 stata 动态面板命令
最近正在写论文,需要用到Stata进行面板数据分析,面板数据分析的步骤,

STATA面板数据模型分析的详细步骤和命令下载地址:

http://vdisk.weibo.com/s/qCPwSw-bb_ovs/1461397835


stata中处理面板数据

第一节 关于面板数据PANEL DATA
1、面板数据回归为什么好
一般而言,面板数据模型的误差项由两部分组成,一部分是与个体观察单位有关的,它概括了所有影响被解释变量,但不随时间变化的因素,因此,面板数据模型也常常被成为非观测效应模型;另外一部分概括了因截面因时间而变化的不可观测因素,通常被成为特异性误差或特异扰动项(事实上这第二部分误差还可分成两部分,一部分是不因截面变化但随时间变化的非观测因素对应的误差项Vt,这一部分一般大家的处理办法是通过在模型中引入时间虚拟变量来加以剥离和控制,另一部分才是因截面因时间而变化的不可观测因素。不过一般计量经济学的面板数据分析中都主要讨论两部分,在更高级一点的统计学或计量经济学中会讨论误差分量模型,它一般讨论三部分误差)。
非观测效应模型一般根据对时不变非观测效应的不同假设可分为固定效应模型和随机效应模型。传统上,大家都习惯这样分类:如果把非观测效应看做是各个截面或个体特有的可估计参数,并且不随时间而变化,则模型为固定效应模型;如果把非观测效应看作随机变量,并且符合一个特定的分布,则模型为随机效应模型。
不过,上述定义不是十分严谨,而且一个非常容易让人产生误解的地方是似乎固定效应模型中的非观测效应是随时间不变的,是固定的,而随机效应模型中的非观测效应则不是固定的,而是随时间变化的。
一个逻辑上比较一致和严谨,并且越来越为大家所接受的假设是(参见Wooldridge的教材和Mundlak1978年的论文),不论固定效应还是随机效应都是随机的,都是概括了那些没有观测到的,不随时间而变化的,但影响被解释变量的因素(尤其当截面个体比较大的时候,这种假设是比较合理的)。非观测效应究竟应假设为固定效应还是随机效应,关键看这部分不随时间变化的非观测效应对应的因素是否与模型中控制的观测到的解释变量相关,如果这个效应与可观测的解释变量不相关,则这个效应成为随机效应。这也正是HAUSMAN设定检验所需要检验的假说。
非观测效应模型因为对非观测效应假设的不同,因为使用面板数据信息的不同,可以用不同方法来估计并且得到不同的估计量,一般有四个:
(1)组内估计量(WITHIN ESTIMATOR)(FE或FD: First Difference)
(2)组间估计量(BETWEEN ESTIMATOR)
(3)混合OLS估计量(POOLED OLS ESTIMATOR)
(4)随机效应估计量(RE,GLS或FGLS估计量)
这四个估计量因为假设和使用信息的不同而不同,各有优劣势,相互之间也有密切关系。3和4分别是1和2的加权平均;4在特定的假设分别可以转化成1和3;如果HAUSMAN检验表明4和1没有区别的时候意味着1和2没有区别。
RE假设未观察因素与解释变量是正交的,只不过在未观察因素里有两个部分,一是
* 此短文适用于对于面板数据和工具变量已经有初步了解的人士,阅读过中级教材的相关内容。本文仅供参考,如果存在错误,请与minglu73@263.net联系,以便及时纠正。请原谅中英文混用。中国科学院的徐志刚博士一一指明了此文存在的错误,并且对原文中存在的不足作了大量的补充,特表示感谢。
与个体单位有关的,二是完全随机的,RE在做估计的时候,是用这两个部分的方差计算出一个指数λ,来做quasi-demean,也就是说在去平均的时候是用原值的y或x减去λ乘以y或x的均值,然后用GLS估计。极端地,当λ为0时,非观测效应是一个常数,并且所有个体都一样,就等价于Pooled OLS,当λ为1时,说明完全随机的部分可以忽略,所有未观察因素都是与单位有关的,于是就等价于FE。但FE不需要假定未观察因素与解释变量是正交的,在做FE时,固定效应都被差分掉了,所以也可得到consistent的结果。
PANEL数据的好处之一是,如果未观察到的是固定效应,那么在做DEMEAN时,未观察因素就被差分掉了。这样就可以减少由于未观察的因素可能与解释变量相关而导致的内生性问题。
2、那么PANEL的FE或RE分析就避免了内生性问题吗?
只能说好一些,如果内生的问题只是由于与单位有关的并不随时间变化的遗漏变量与解释变量有关造成的,这时,数据的差分就解决了问题,但是,别忘记还有一部分误差,如果这部分误差里包含的因素也可能影响解释变量,那么,差分只能解决前面讲的问题,由随机项里包括的因素与解释变量之间的关系导致的内生性问题还可能存在。
3、怎么办?
找IV解决。类似于在OLS基础上找IV,但对PANEL的工具应该具有PANEL结构,除非你基础的估计没有使用PANEL的方法,比如说对数据用了pooled OLS方法,但能够用pooled OLS方法分析PANEL DATA的条件是很严格的。

第二节 关于工具变量选择
1, IV应该尽量是外生的(如历史/自然/气候/地理之类),它应该在理论上对被解释变量(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解释变量Y。
2, 如果上述理论逻辑通的话,将内生变量X作为解释变量,IV和其他变量(X2)作为解释变量,看IV是否显著,它应该显著。如果选了多个IV,就用F TEST看其是否都不显著。同时,如果在多个IV中,有一个是确定为外生的,那么,可以用Sargan test of overidentifying restrictions来检验其他的IV是不是确实是外生的。
3, 如果上述都没有问题,做一下IV回归。完成后,用HAUSMAN检验,这个检验的原假说是IV回归与原回归(不用IV的回归)的变量的系数并没有显著的不同。看一下P值,如果P小于比如说0.1,或者0.05,那么,说明IV回归与原来的回归显著不同,原来的方程的确有内生性问题导致的估计偏误。反之,如果P很高,超过0.1,或0.05,那说明IV回归与原来的回归没有显著不同,无法拒绝原来的回归没有显著的内生问题导致的估计偏误的原假设。
4, 如果选择的IV本身就影响Y,那它就不能被作为IV。例如,Y在左边,右边是X(被工具的),X2,IV。当IV被放在方程右边时,它最好是不显著影响Y的。在Acemoglu(2001)里,他就检验了他们的IV是否直接影响被解释变量,结果说明不直接影响,于是这个IV是好的。当然,一个好的IV在前面的回归中也可能是显著的(不过一般如果理论和逻辑上IV是通过被工具的内生解释变量间接影响被解释变量的话,一般来说应该是被工具的内生解释变量使得IV不显著,或者由于两者相关性很高,两者都不显著),但判断的标准还只是t值。这个变量显著完全有可能是因为它影响了其他显著的变量(比如被工具的变量),如果是这样,当包括了IV在原方程中以后,其他变量(特别需要注意的是被工具的变量X)的系数可能发生明显变化。

第三节 关于HAUSMAN TSET(以下简称HT)的若干细节问题
具体参见Stata corporation, 2001, STATA 7 Reference H-P, Stata Press
1,含义:“The null hypothesis is that the efficient estimator is a consistent and efficient estimator of the true parameters. If it is, there should be no systematic difference between the coefficients of the efficient estimator and a comparison estimator that is known to be consistent for the true parameters. If the two models display a systematic difference in the estimated coefficients, then we have reason to doubt the assumptions on which the efficient estimator is based.”参见手册Stata corporation, 2001, STATA 7 Reference H-P, Stata Press。该方法是Hausman (1978)的程序化。所以,Hausman Test的命令(hausman)假设使用者知道需要比较的两个方程中哪一个是“无论原假说成立与否都是consistent”,哪一个“在原假说下不仅efficient而且consistent,但若原假说不成立,则inconsistent”,1然后,在STATA 8下,步骤是:
(1) obtain an estimator that is consistent whether or not the hypothesis is true;
(2) store the estimation results under a name-consistent using estimates store;
(3) obtain an estimator that is efficient (and consistent) under the hypothesis that
you are testing, but inconsistent otherwise;
(4) store the estimation results under a name-efficient using estimates store;
(5) use hausman to perform the test
hausman name-consistent name-efficient [, options]
举例:
(1)在关于是FE还是RE的检验中,原假说是非观测效应与解释变量不相关,备择假说是两者相关。FE是无论原假说成立与否都是consistent,而RE在原假说下是consistent,并且Asymptotically efficient(样本越大越有效),但如果原假说被拒绝,则RE不是consistent的 (Hausman, 1978)。
所以做法应该是(STATA 8的命令):
sort code year (排序)
tis year (时间变量是year)
iis code (表示单位的是code)
xtreg y x x2, fe(假设其中x是需要被工具的变量)
est store fixed (在STATA8里命令有变化,不再是HAUSMAN,SAVE了,这里的fixed实际上就是个变量名,用什么都行)
xtreg y x x2, re
hausman fixed
(2)比较OLS(或FE)和IV(或IVFE)
先做IV,因为,它无论如何都是consistent的,但OLS只有在原假设成立,即OLS结果与IV结果相同,内生性问题没有时,才是consistent的。所以,应该先做IV。
在老版本的STATA里,如果不加特殊说明,STATA就会默认为先写的回归命令得到的是总是一致的估计结果,后写的得到的是备择假设下不一致的估计结果。现在HAUSMAN命令
1 Refer to the appendix for the definition of unbiased, consistent and efficient.
规范了,而且扩展了。先跑哪个不重要,关键在于写最后HAUSMAN命令时候的顺序,而且如果最近跑的一个没有用EST存名字的话,要用“.”代替。
2.注意:
(1)对以上检验的理解的另一种方式是,我们先做一个假设条件要求更松的估计,然后再做一个假设条件更严格的。相比之下,IV(IVFE)比OLS(FE)要求更松。容易搞混的是FE比RE假设条件更松。RE假设未观察因素与解释变量是正交的,只不过在未观察因素里有两个部分,一是与个体单位有关的,二是完全随机的,RE在做估计的时候,是用这两个部分的方差计算出一个指数λ,来做quasi-demean,也就是说在去平均的时候是用原值的y或x减去λ乘以y或x的均值,然后用GLS估计。当λ为0时,就等价于pooled OLS,当λ为1时,说明完全随机的部分可以忽略,所有未观察因素都是与单位有关的,于是就等价于FE。但FE不需要假定未观察因素与解释变量是正交的,在做FE时,固定效应都被差分掉了,所以也可得到consistent的结果。当我们先做假设更严格的估计时,HT与一般检验一样,检验值大,P小,则原假说拒绝,应该接受假设更松的。在FE与RE的比较里,卡方大,接受FE。在OLS(FE)与IV(或IVFE)的比较里,当卡方值大时,P小时,拒绝原假说,IV结果和OLS(或FE)有不同,于是接受IV结果。
(2)从以上讨论可以看出,我们需要事先知道HT时两个方程的顺序和性质。在STATA7以下,当使用hausman命令时,它默认的顺利(缺省参数more)就是上面的顺序。如果你做的顺序相反,就应该加上参数,命令为hausman, less,如果没有写less,那么,STATA是不知道谁更efficient的,这时,你本来应该得到一个正的结果,就完全可能因为顺序错了,又忘记了参数less而得到一个相反的负数结果。
STATA8里命令变化,可以变顺序,但要使用者注意正确使用参数:
The order of computing the two estimators may be reversed. You have to be careful
though to specify to hausman the models in the order “always consistent” first and
“efficient under H0” second. It is possible to skip storing the second model and refer
to the last estimation results by a period (.).
(3)在其他可比较的情况下,顺序并不重要(如果没有谁更有效的差别)
hausman may be used in any context. The order in which you specify the regressors in
each model does not matter, but it is your responsibility to assure that the estimators
and models are comparable, and satisfy the theoretical conditions (see (1) and (3)
above).
(4)当HT出现负值时
先看一下是不是方程顺序错了。如果没有错,那么在小样本数据下也并不是不可能得到负值。当HAUSMAN检验的X2值是负的时候,意思是强烈地表明两个被比较的回归结果系数相同(或者说无显著差异)的原假说不能被拒绝,尤其是小样本中很可能出现。这是STATA7的使用手册上的一个例子说的。但在STATA8里,又说,出现负值这种情况时,If this is the case, the Hausman test is undefined. Unfortunately, this is not a rare event. Stata supports a generalized Hausman test that overcomes both of these problems. See suest for details.可以通过help suest了解。
3.STATA命令
(1)比较FE和RE
sort code year (排序)
tis year (时间变量是year)
iis code (表示单位的是code)
xtreg y x x2, fe(假设其中x是需要被工具的变量)
est store fixed (在STATA8里命令有变化,不再是HAUSMAN,SAVE了,这里的fixed实际上就是个变量名,用什么都行)
xtreg y x x2, re
hausman fixed
(2)比较IVFE和IVRE
xtivreg y (x=iv) x2, fe
est store f1
xtivreg y (x=iv) x2, re
hausman f1
一般来说用不着这个比较,因为在这之前,你已经知道FE和RE谁好了,就将好的结果与它的IV结果比就行了。
(3)比较IVFE和FE
xtivreg y (x=iv) x2, fe
est store f2
xtreg y x x2, fe
hausman f2
再重复一遍,如果结果是P小,卡方大才说明IV回归是必要的,原来是有内生问题

第四节 举例
Acemoglu等人(2001)的文章是非常有代表性的使用工具变量的论文。他们试图验证制度对人均收入有影响,显然,直接做回归的话,制度就是内生的,因为好的制度可能在人均收入高的地方产生。他们找的工具变量是殖民地时代一个国家的死亡率,死亡率高欧洲人就不会定居下来,于是就会在当时建议掠夺性的制度,反之就会建立好的制度,而那时的制度对现在仍然有影响。
特别值得注意的是论文的6.3部分对于工具变量的有效性的检验。首先,他们用其他可行的变量作为替代来反复做IV回归,发现得到的结果与用死亡率作IV得到的结果基本相同。(这当然是不错的结果,但是,我认为这不是必要的,因为你并不一定能够找到其他的IV。)然后,他们将死亡率本身作为外生变量放在原回归里,发现它不显著地影响被解释变量,这说明它并不直接影响被解释变量。第三,他们把只用死亡率的IV结果和同时用死亡率和其他IV的结果进行卡方检验,发现它们没有显著不同,再次说明死亡率没有直接影响,也不是通过影响制度以外的其他变量影响被解释变量的。我认为这一步也不是必要的,因为如果你没有其他IV,这一步也就没有办法做了。
参考文献:
Acemoglu, Daron, Simon Johnson and James A. Robinson (2001) “The Colonial Origins of Comparative Development: An Empirical Investigation,” American Economic Review, December, Volume 91, Number 5, 1369-1401.
Stata corporation, 2001, STATA 7 Reference H-P, Stata Press.
Hausman, Jerry A. and William E. Taylor, 1981, “Panel Data and Unobservable Individual Effects,” Econometrica, Vol. 49, No. 6, 1377-1398.
Hausman, Jerry A., 1978, “Specification Tests in Econometrics,” Econometrica, Vol. 46, No. 6, 1251-1271.

转载请注明:数据分析 » stata面板数据模型分析的详细步骤和命令

Stata与R比较_区别_使用心得分享

$
0
0

Stata与R比较_区别_使用心得分享

Stata与R比较
我学用Stata已有几年了,感觉它易学易用,运行速度快,且功能强大;但也觉得它在相同变量与观测单位的情况下(如5000个单位,15个变量),好象对内存容量要求要比其它统计软件高,而且它的使用手册非常难求(Stata10之前难求,但在Stata11软件中手册已随之提供)。
最近有部分同学和同事建议我用R,虽然R及其相关材料是自由、免费(版权问题)的,但我觉得R较Stata难以上手。开始自学时,不看任何相关资料,我学Stata时约2个小时后基本可用命令作一些简单的分析,而我用同样多的时间却摸不着R的门道,而且,我认为当前很多人对R的热情主要是因它“免费”,这种“免费”能维持多久,或者是为免费来维护或更新R软件及其各程序包计算的准确性等而投入的人力、财力、时间与情感能维持多久,我看得观察一段时间。
Stata软件购买费用并不高,以单用户的标准版来说,估计价格在3500到6000元RMB之间,且可终生使用(并非租用)。
再说,就我国目前的统计专业而言,至少能熟练(知道算法,能编出应用程序的程度)使用一种统计软件的硕士生博士生的比例并不高, 所以,对统计专业本科生而言,我个人认为Stata似乎比R更合适。
请各位谈谈自己的看法 !!


国内大部分的“免费”都是“盗版”。而R的免费是因为R是一款开源软件,就如同Emacs和Latex一样,是有一支自发而成的团队来维系它。这只团队可谓是牛人众多,其中就包括当年开发S的工程师。开源软件是现在的一个趋势,是一种新的观念,提倡的是“众人拾柴火焰高”,让大家在网上提供自己的程序包,破开知识疆土的界限,大力促进“软件社会主义”,而不是“软件盗版主义”。既然Latex和Emacs这么多年(10年以上)来都没有任何倒退的迹象,反而是蓬勃发展,我们应该相信R也将会如此。
如果楼主有心于学术研究的话,提议用R,毕竟体现了你对版权的尊重,少用盗版的好。此外,R在网上拥有大量免费的资料,也相当便于学习。

再纠正楼主另一个错误的观点——易上手!
易上手是好事吗?

其实蛮难定义“上手”这个概念的。举个例子来说吧,例如:计量经济学中的线性回归,如果认为点击几下鼠标就能够得到结果是“易上手”的话,那却是Stata是较R容易。但是也正是这种方便性,成为了Stata乃至大部分商业软件的软肋,假如某个统计变量是Stata标准包中没有的,怎么办?还不是得用Stata的语言来DIY。既然这么费力,为何不一开始就用R来自己写程序?而且自己写程序才能够真正的理解公式背后的含义,自己写才能够感受到知识的无界性。正所谓“知识有多少,程序跑多好;知识比较少,程序跑不了”
R所提供的编程环境,以及网上提供的大量package都可以成为研究人员披荆斩棘的利器。我就不知道Stata能不能够做Bayesian Analysis了。Stata很难跟上时代的潮流的,毕竟商家需要时间来完善自己的软件,我们又需要时间来破解正版软件。

所以“易上手”未必就是好事,年轻的时候苦点,老了才能享福啊!

另外还有一点愚见就是,其实所有的软件程序都是基于课本上、论文中的数学逻辑,矩阵运算,概率统计,如果能够很好地掌握这些知识,其实根本就不存在“上手”的问题,只要会import,output,定义矩阵,生成随机数就OK了。——要算啥,就自己编啥贝。
我学R用了2天,Stata和SAS到现在都没学透,总是有新的命令,新的更新包,累啊~~

PS:作为R的Fans的一点遇见。言语若有得罪,多多包涵。大家都是混学术的嘛


Stata不仅入门容易,而且进阶也容易,例如根据自己的需要,即可自己编写所需统计量、估计方法等的程序,还可对所谓的标准包用记事本打开修改并另存就OK了,省事啊!同时网上有很多Stata用户编写的程序包可下载!还是省事,这并不亚于R。

由于Stata命令的简捷易董(大部分命令其实就是相应英语单词,只要不重复,也可只写单词的前几个字母),功能强大(主要体现在命令的选项上),……,受到广大用户的喜爱。

R我是不懂,上面仅是我的个人对Stata的看法,请各位能不吝赐教!我以前用Spss与Eviews,目前用的是Stata。我觉得个人能用精一两个较优秀的软件就行了,不必花费过多的时间与精力去学很多,但为了不误人子弟(统计专业本科生),我得了解各位对这两个软件的看法,再决定是学与否。


社会学,医学和生物的我建议用stata。

统计专业的我建议用r或者s。

外行用spss(没有贬低spss的意思,而是其他的外行根本不可能学的原因)。

r可不是其他专业可以学,用r的价值在于得到最近统计前沿的一些分析方法。而不是会计算矩阵,随机数(蒙特卡洛就是一个很专业的领域了)就完了的,你还有数据量的限制需要用不同的计算机算化来实现,所以学习r必须精通计算机编程(如何存储数据,数据的收敛性质等等)加统计算法,与其学到r的一些皮毛不如学精stata和spss+其他专业软件来得实际和更有效率。

r基本我是学来玩的,就当是一个高级玩具。尝试用一些新的过程研究数据也是一种进步。


我学用Stata已差不多有两年了,感觉它易学易用,运行速度快,且功能强大;但也觉得它在相同变量与观测单位的情况下(如5000个单位,15个变量),好象对内存容量要求要比其它统计软件高,而且它的使用手册非常难求。

      最近有部分同学和同事建议我用R,虽然R及其相关材料是免费的,但我觉得R较Stata难以上手,不看任何相关资料,我学Stata时约2个小时后基本可用命令作一些简单的分析,而我用同样多的时间却摸不着R的门道,而且,我认为当前很多人对R的热情主要是因它免费,这种免费能维持多久,或者是为免费来维护R软件而投入的人力、财力、时间与情感能维持多久,我看得观察一段时间。

     对统计专业本科生而言,我个人认为Stata似乎比R更合适。

     请各位谈谈自己的看法 !!

楼主,这样说,只能说不懂R!不懂R的当然无法了解R的优点了!!我想澄清如下几点:

1、R的好处不仅仅在于其免费,更重要的在于其是开源,灵活,更新速度快,集思广益。而且R有点像是一种网络,用的人越多,贡献的人也越多,这样其的价值就成几何级数上升。我以前用过几乎所有的统计软件,但自从学会R,目前几乎只用R做分析。我相信很多人都有这种情形。

2、很多软件只是一个黑箱子,数据丢进去,结果出来。这样的结果,你会放心吗?而且这样学习,你根本不懂计量、统计背后真正的含义。可以这样说,永远别想真正学会统计思想,你的统计分析只是依样画葫芦,有时画得很像,但不懂神韵!很多时候是”garbage in and garbage out”

3、R初学确实有点难懂,但R的编程思想非常简单,几乎就是写数学公式一样简单,学过C和C++等低层语言就会知道R的编程是如此之简单,R是一种面向对象的高级语言。R入门者其实只要有人稍加指点,很快学会其基本操作!

4、学R应该说是一种趋势,如果和国外搞计量、搞统计的教授接触,应该知道现在大部分的教授都在用R,国内用R还只是一小部分,发展趋势一定是其他软件无法比拟的!

5、不同软件都有其优点和缺点,本人不是贬低其他软件之意!但我想真正学会计量、统计的人来说学R是非常重要的,除非只是想依样画葫芦。

6、R的好处和发展趋势,在未来3-5年,可能会超出任何人的想象!Let’s wait and see!


本人是先用的matlab,没用过R。当时复制一篇关于IPO的论文,计量其实不重要,最重要的是data management,最起码要统计均值、中位数、分组之类的,用matlab做这种几百万、上千万observation的实证分析是非常不便的,指导研究的教授本身都用stata来做实证,我后来便也改用stata。matlab不知是否跟R较像,个人觉得matlab的确做计算很方便,但不是为做统计来设计的。至于矩阵,stata可以用mata,有时替代stata自带的回归分析等操作更为方便。
stata和sas相比,广泛程度应该不如后者,包括在业界(最简单的可以看看Wind数据库,有matlab sas r以及python的接口,但没有stata),一个实际问题就是更大规模数据的处理,因为stata是将数据先读入内存。但正如xingxf所言,提高机器的配置,stata在这方面的弱势并不会显得很大。实际应用中,尤其对于中国人,stata一个显见的好处在于其对于中文字符的支持,而sas是不行的。另,上学时一位牛校的计量大咖给我们讲计量前沿课程时,其实是推荐stata的,原因之一在于在服务器上可以方便的同时运行多个stata程序。。
如果只是做金融经济方面的实证分析,个人感觉stata综合素质还是很高的。最后举个例子,比如说投资,所谓建模可能更多时候是做统计,像Fama、French那样,而非真的有个像BS公式那样的数理模型,所以重在数据处理而非科学计算

转载请注明:数据分析 » Stata与R比较_区别_使用心得分享

STATA固定效应的时间固定和个体固定效应估计方法、检验策略和操作步骤

$
0
0

STATA固定效应的时间固定和个体固定效应估计方法、检验策略和操作步骤

最近在研究空间动态面板模型,其中涉及到固定效应模型要确定时间固定和个体固定效应时,由于在stata中使用,查阅了很多文献最终攻克该难题,具体估计方法如下,顺便包含了混合估计、固定效应和随机效应的估计方法,详细的可靠的是固定效应:
一、混合估计模型:
reg cp ip
二、固定效应模型
1.个体固定效应模型:
tsset id year
xtreg Y X, fe 或者 xtreg Y X , fe i(id)
针对个体固定效应(H0:不存在个体固定效应)的F检验自动生成,如果p<=10%则应该选择个体固定效应。
2.时刻固定效应模型
(1)麻烦的间接方法
tsset id year
xi:reg Y X i.year
对于时间固定效应模型的检验不是很直接,要用wald检验,相应的命令为:
建设是四年数据,时间虚变量为 _Iyear_2、 _Iyear_3、 _Iyear_4,那么wald检验
test _Iyear_2=_Iyear_3= _Iyear_4
test _Iyear_2=_Iyear_3= _Iyear_4=0
(2)巧妙的方法
这个方法有点麻烦,后来论坛中有人聪明的提出一种方法,让人眼前一亮,就是将时间和截面变量交换位置,之前得到的是个体固定效应,之后就是时间固定效应,具体如下:
tsset year id
xtreg Y X,fe
针对时期固定效应(H0:不存在时期固定效应)的F检验自动生成。
我刚开始对此方法不是很有信心,最后自己将其与第一种方法做了对比发觉,估计的参数值和其他统计量均为一致性,因此推荐后面这种方法。
(3)直接的方法
参照个体固定效应的方法,我们再推荐一种简便直接方法:
tsset id year
xtreg Y X ,fe i(year)

针对时期固定效应(H0:不存在时期固定效应)的F检验自动生成。
比较三种方法,第二、三种方法更为直接和有效,第一种与他们的区别还有一点就是常数项估计值不同,而第二种方法缺乏理论依据和现实做的人比较少,因此综合来看,第三种方法最为有效和直接。
3.时刻个体双固定效应模型
实际上连玉君讲义中的时间效应(人大经济论坛出的stata论文专题讲义的p230)是时间个体双固定效应,可以这样理解fe只是固定个体效应,比如在个体固定效应模型中,输入fe和输入fe i(id),得到的F值和p值均一致,另外从stata命令的中看sigma_u:panel-level standard deviation,F_f:F for u_i=0,均在说个体效应问题而时间效应已经通过设置时间虚拟变量进行了控制。具体方法如下:

xtset id year
xi:xtreg y x1 x2 i.year,fe
这种方法有个问题是,估计的时候可能会出现:
“independent variables are collinear with the panel variable year”
解决的办法是从新生成一个panel varible比如code,此code是id和year的综合,前提是提前设置了
tsset id year。然后按照如下命令进行:
gen code =year+id
tsset code year
xi:xtreg y x1 x2 i.year,fe
针对时期固定效应(H0:不存在时期固定效应)的F检验自动生成。
最后在三种模型中到底选择哪个,主要根据F检验值是否显著进行判断,第一个显著后面不显著就选个体固定效应模型,第 二个显著其他不显著选择时间固定效应模型,第 三个显著意味着前两个均显著,那么选择个体时间双固定模型。
三、随机效应模型
tsset id year
xtreg cp ip,re

四、回归系数不同的面板数据模型
by id: reg cp ip
然后把斜率&截距整理合成一下就ok。

五、针对固定效应和随机效应模型选择主要根据Hausman检验结果判定:
xtreg cp ip, fe
est store FE
xtreg cp ip, re
est store RE
hausman FE RE 由于原假设是随机效应和固定效应无差异,如果拒绝原假设,则采用固定效应模型,否则随机效应模型。

补充内容 (2013-12-16 09:01):
固定效应模型分为三种:个体固定效应模型、时刻固定效应模型和个体时刻固定效应模型)。如果我们是对个体固定,则应选择个体固定效用模型。但是,我们还需作个体固定效应模型和混合估计模型的选择。

补充内容 (2013-12-16 09:01):
所以,就要作F值检验。

补充内容 (2013-12-16 09:02):
H0:对于不同横截面模型截距项相同(建立混合估计模型)。SSEr
H1:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。SSEu

补充内容 (2013-12-16 09:02):
F统计量定义为:
F=[( SSEr – SSEu)/(T+k-2)]/[ SSEu/(NT-T-k)]

补充内容 (2013-12-16 09:02):
其中,SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(个体固定效应模型的)的残差平方和(Sum squared resid)。非约束模型比约束模型多了T–1个被估参数。需要指出的是:当模型中含有k个解释变量时,

补充内容 (2013-12-16 09:02):
F统计量的分母自由度是NT-T- k。通过对F统计量我们将可选择准确、最佳的估计模型。

转载请注明:数据分析 » STATA固定效应的时间固定和个体固定效应估计方法、检验策略和操作步骤


SAS、Stata与SPSS的比较_SAS Stata SPSS区别

$
0
0

SAS、Stata与SPSS的比较

  很多人曾问及SAS,Stata 和SPSS之间的不同,它们之中哪个是最好的。可以想到,每个软件都有自己独特的风格,有自己的优缺点。本文对此做了概述,但并不是一个综合的比较。人们时常会对自己所使用的统计软件有特别的偏好,希望大多数人都能认同这是对这些软件真实而公允的一个对比分析。
SAS
一般用法。SAS由于其功能强大而且可以编程,很受高级用户的欢迎。也正是基于此,它是最难掌握的软件之一。使用SAS时,你需要编写SAS程序来处理数据,进行分析。如果在一个程序中出现一个错误,找到并改正这个错误将是困难的。
数据管理。在数据管理方面,SAS是非常强大的,能让你用任何可能的方式来处理你的数据。它包含SQL(结构化查询语言)过程,可以在SAS数据集中使用SQL查询。但是要学习并掌握SAS软件的数据管理需要很长的时间,在Stata或SPSS中,完成许多复杂数据管理工作所使用的命令要简单的多。然而,SAS可以同时处理多个数据文件,使这项工作变得容易。它可以处理的变量能够达到32,768个,以及你的硬盘空间所允许的最大数量的记录条数。
统计分析。SAS能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。SAS的最优之处可能在于它的方差分析,混合模型分析和多变量分析,而它的劣势主要是有序和多元logistic回归(因为这些命令很难),以及稳健方法(它难以完成稳健回归和其他稳健方法)。尽管支持调查数据的分析,但与Stata比较仍然是相当有限的。
绘图功能。在所有的统计软件中,SAS有最强大的绘图工具,由SAS/Graph模块提供。然而,SAS/Graph模块的学习也是非常专业而复杂,图形的制作主要使用程序语言。SAS 8虽然可以通过点击鼠标来交互式的绘图,但不象SPSS那样简单。
总结。SAS适合高级用户使用。它的学习过程是艰苦的,最初的阶段会使人灰心丧气。然而它还是以强大的数据管理和同时处理大批数据文件的功能,得到高级用户的青睐。
Stata
一般用法。Stata以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。使用时可以每次只输入一个命令(适合初学者),也可以通过一个Stata程序一次输入多个命令(适合高级用户)。这样的话,即使发生错误,也较容易找出并加以修改。
数据管理。尽管Stata的数据管理能力没有SAS那么强大,它仍然有很多功能较强且简单的数据管理命令,能够让复杂的操作变得容易。Stata主要用于每次对一个数据文件进行操作,难以同时处理多个文件。随着Stata/SE的推出,现在一个Stata数据文件中的变量可以达到32,768,但是当一个数据文件超越计算机内存所允许的范围时,你可能无法分析它。
统计分析。Stata也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,以及一些多变量分析)。Stata最大的优势可能在于回归分析(它包含易于使用的回归分析特征工具),logistic回归(附加有解释logistic回归结果的程序,易用于有序和多元logistic回归)。Stata也有一系列很好的稳健方法,包括稳健回归,稳健标准误的回归,以及其他包含稳健标准误估计的命令。此外,在调查数据分析领域,Stata有着明显优势,能提供回归分析,logistic回归,泊松回归,概率回归等的调查数据分析。它的不足之处在于方差分析和传统的多变量方法(多变量方差分析,判别分析等)。
绘图功能。正如SPSS,Stata能提供一些命令或鼠标点击的交互界面来绘图。与SPSS不同的是它没有图形编辑器。在三种软件中,它的绘图命令的句法是最简单的,功能却最强大。图形质量也很好,可以达到出版的要求。另外,这些图形很好的发挥了补充统计分析的功能,例如,许多命令可以简化回归判别过程中散点图的制作。
总结。Stata较好地实现了使用简便和功能强大两者的结合。尽管其简单易学,它在数据管理和许多前沿统计方法中的功能还是非常强大的。用户可以很容易的下载到别人已有的程序,也可以自己去编写,并使之与Stata紧密结合。
SPSS
  一般用法。SPSS非常容易使用,故最为初学者所接受。它有一个可以点击的交互界面,能够使用下拉菜单来选择所需要执行的命令。它也有一个通过拷贝和粘贴的方法来学习其“句法”语言,但是这些句法通常非常复杂而且不是很直观。
数据管理。SPSS有一个类似于Excel的界面友好的数据编辑器,可以用来输入和定义数据(缺失值,数值标签等等)。它不是功能很强的数据管理工具(尽管SPS 11版增加了一些增大数据文件的命令,其效果有限)。SPSS也主要用于对一个文件进行操作,难以胜任同时处理多个文件。它的数据文件有4096个变量,记录的数量则是由你的磁盘空间来限定。
统计分析。SPSS也能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。它的优势在于方差分析(SPSS能完成多种特殊效应的检验)和多变量分析(多元方差分析,因子分析,判别分析等),SPSS11.5版还新增了混合模型分析的功能。其缺点是没有稳健方法(无法完成稳健回归或得到稳健标准误),缺乏调查数据分析(SPSS12版增加了完成部分过程的模块)。
绘图功能。SPSS绘图的交互界面非常简单,一旦你绘出图形,你可以根据需要通过点击来修改。这种图形质量极佳,还能粘贴到其他文件中(Word 文档或Powerpoint等)。SPSS也有用于绘图的编程语句,但是无法产生交互界面作图的一些效果。这种语句比Stata语句难,但比SAS语句简单(功能稍逊)。
总结。SPSS致力于简便易行(其口号是“真正统计,确实简单”),并且取得了成功。但是如果你是高级用户,随着时间推移你会对它丧失兴趣。SPSS是制图方面的强手,由于缺少稳健和调查的方法,处理前沿的统计过程是其弱项。
总体评价
每个软件都有其独到之处,也难免有其软肋所在。总的来说,SAS,Stata和SPSS是能够用于多种统计分析的一组工具。通过Stat/Transfer可以在数秒或数分钟内实现不同数据文件的转换。因此,可以根据你所处理问题的性质来选择不同的软件。举例来说,如果你想通过混合模型来进行分析,你可以选择SAS;进行logistic回归则选择Stata;若是要进行方差分析,最佳的选择当然是SPSS。假如你经常从事统计分析,强烈建议您把上述软件收集到你的工具包以便于数据处理。

转载请注明:数据分析 » SAS、Stata与SPSS的比较_SAS Stata SPSS区别

如何做稳健性检验_怎么进行稳健型检验

$
0
0

如何做稳健性检验_怎么进行稳健型检验

最近好多人都在问稳健型检验相关问题,本站为大家整理了一些稳健型检验相关精彩解答,供大家参考

关键词:怎么进行稳健型检验,如何做稳健性检验,稳健性检验的方法

把解释变量和被解释变量找几个其他的变量替换一些,看看你原来的回归结果是不是符号和显著性发生了变化,如果没有变化,那就是稳健的,变化了就有问题了!


看了一些paper,主要觉得有这么几种:
1. 从数据出发,根据不同的标准调整分类,检验结果是否依然显著;
2. 从变量出发,从其他的变量替换,如:公司size可以用total assets衡量,也可以用total sales衡量;
3. 从计量方法出发,可以用OLS, FIX EFFECT, GMM等来回归,看结果是否依然robust;


稳健性检验,近年来国内许多论文都加入了这一块,
我的记忆,4-5年前的论文很少有这部分的内容。
不过,大多数论文写到这一块的时候,已到尾声,作者投入就有限了。感觉现在稳健性检验的部分都搞得很个性,写得也不清晰,只是作者比较看重什么就检验一下,不看重的方面就过去了。
总之如果详细进行稳健性检验,工作量不是一般的大。
专门留意了一下,目前国外的许多论文都没有这个部分


稳健性检验检验的是实证结果是否随着参数设定的改变而发生变化,如果改变参数设定以后,结果发现符号和显著性发生了改变,说明不是robust的,需要寻找问题的所在。
一般根据自己文章的具体情况选择稳健性检验:
1. 从数据出发,根据不同的标准调整分类,检验结果是否依然显著;
2. 从变量出发,从其他的变量替换,如:公司size可以用total assets衡量,也可以用total sales衡量;
3. 从计量方法出发,可以用OLS, FIX EFFECT, GMM等来回归,看结果是否依然robust;


首先想想稳健性检验的目的是什么?简单说就是要检测你的主要最重要的那个变量是否在不同情况下结果依然稳定,那么所有的稳健性检验就是以这个为出发点。
我提到的通过换变量的方式来进行稳健性检测主要是通过对主要变量的替换,举个最简单的例子,如果想测试公司规模对公司盈利是否有显著影响,那么我们在文中是以total assets来衡量公司规模,所以在稳健性检验的时候可以用total sales或者total number of employee来衡量公司规模看结果是否依然稳定。当然,有些时候找一个替换变量不是那么容易。
关于能不能通过换控制变量进行稳健性检验,我个人持保留意见。但有种情况下,是有必要的:如果你的主要变量和控制变量有很强的相关性,那么通过对控制变量的替换,看能不能降低相关性,而相关性的降低是否会影响主要变量的结果,在这种情形下是有必要的。
其实,增加/减少控制变量也是一种稳健性检验,也就是说能不能capture additional effects。

转载请注明:数据分析 » 如何做稳健性检验_怎么进行稳健型检验

怎么检验是否存在多重共线性_多重共线性检验

$
0
0
怎么检验是否存在多重共线性
想检验一下是否存在多重共线性,应该把模型里每一项都做相关分析吗?交互项也需要放吗?哑变量呢?
得到相关系数表之后应该怎么判断是否存在多重共线性?
统计学没学好= =,求指教。。
模型如图:
怎么检验是否存在多重共线性_多重共线性检验
解答:一种是给出各变量的相关系数;还有一种是方差膨胀因子(VIF)检验。
相关系数矩阵我会,方差膨胀因子(VIF)检验怎么弄呢?
得到相关系数矩阵后,相关系数怎么样才能得到我的模型可以用的结论呢?
是每个变量都要看相关系数还是交互项就不用了?
求各路高手指教啊!
解答:交互项放进方程时,需要中心化处理,一般是用变量实际值减去均值后相乘,再放进方程,避免多重共线性。
———-*******——–
多重共线性的检验方法比较多也是可以分成几个层次来检验:一种是初步判断:如果回归完以后拟合优度和F统计量很大,而与此同时模型中应当显著的变量不显著或是没有一个变量是显著的,甚至参数估计量的正负号发生了改变,可以初步判定会存在多重共线性;二、进一步可以用逐步回归法,方差膨胀因子VIF来检验,一般情况下VIF大于5就表明存在较为严重的多重共线性,利用条件数来判断(STATA命令:coldiag2+自变量)如果条件数小于30,表明不存在共线性,在30到100之间表明存在一定程度的多重共线性,但不会对模型的回归与解释产生影响,如果高于100则表明存在严重的多重共线性。
******
如果已经计算出解释变量之间的相关系数,可以将各解释变量之间的相关系数与回归的拟合优度比较,如果大于拟合优度,则表明存在共线性。
——————————————————————–
其他精彩回答:
在SPSS中有专门的选项的。例如在回归分析中,线性回归-统计量-有共线性诊断。
多重共线性:自变量间存在近似的线性关系,即某个自变量能近似的用其他自变量的线性函数来描述。 多重共线性的后果: 整个回归方程的统计检验P<a,但所有偏回归系数的检验均无统计学意义。 偏回归系数的估计值大小明显与常识不符,甚至连符号都是相反的。比如拟合结果表明累计吸烟量越多,个体的寿命就越长。 在专业知识上可以肯定对应变量有影响的因素,在多元回归分析中却P>a,不能纳入方程 去掉一两个变量或记录,方程的回归系数值发生剧烈抖动,非常不稳定。
多重共线性的确认: 做出自变量间的相关系数矩阵:如果相关系数超过0.9的变量在分析时将会存在共线性问题。在0.8以上可能会有问题。但这种方法只能对共线性作初步的判断,并不全面。 容忍度(Tolerance):有 Norusis 提出,即以每个自变量作为应变量对其他自变量进行回归分析时得到的残差比例,大小用1减决定系数来表示。该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能就越严重。陈希孺等根据经验得出:如果某个自变量的容忍度小于0.1,则可能存在共线性问题。 方差膨胀因子(Variance inflation factor, VIF): 由Marquardt于1960年提出,实际上就是容忍度的倒数。
特征根(Eigenvalue):该方法实际上就是对自变量进行主成分分析,如果相当多维度的特征根等于0,则可能有比较严重的共线性。 条件指数(Condition Idex):由Stewart等提出,当某些维度的该指标数值大于30时,则能存在共线性。 多重共线性的对策: 增大样本量,可部分的解决共线性问题 采用多种自变量筛选方法相结合的方式,建立一个最优的逐步回归方程。 从专业的角度加以判断,人为的去除在专业上比较次要的,或者缺失值比较多,测量误差比较大的共线性因子。 进行主成分分析,用提取的因子代替原变量进行回归分析。 进行岭回归分析,它可以有效的解决多重共线性问题。 进行通径分析(Path Analysis),它可以对应自变量间的关系加以精细的刻画。Spss可以进行比较基本的通径分析,但复杂的模型需要使用SPSS公司的另外一个软件AMOS来进行。

转载请注明:数据分析 » 怎么检验是否存在多重共线性_多重共线性检验

Hausman检验结果为负?—基于模拟分析的释疑

$
0
0

Hausman检验结果为负?—基于模拟分析的释疑

关键词:hausman检验 stata hausman检验 hausman检验结果 hausman检验结果分析

通过模拟分析发现,这主要是RE模型的基本假设Corr(x_it, u_i) =0 无法得到满足。因此,在这种情况下应该采用FE。

模拟过程如下:

    *- 生成模拟数据:corr(x_it,u_i) != 0
clear
xtarsim y x eta, n(200) t(10) gamma(0) beta(.8) rho(0.2) one(corr 1) sn(9)
describe
xtdes

*- 分别估计 FE 和 RE 模型
xtreg y x, re
est store re
xtreg y x, fe
est store fe

local mm “ols re fe”
esttab `mm’, mtitle(`mm’) scalar(r2 r2_o r2_w r2_a)

*- Hausman检验结果如何?
hausman fe re

    *- 处理方法
hausman fe re, sigmamore  /*使用RE的方差-协方差矩阵 e(V_re)*/
hausman fe re, sigmaless    /*使用FE的方差-协方差矩阵 e(V_fe)*/

* 结论:若传统Hausman检验得到的卡方值为负,则应拒绝RE,而采用FE。


在上面的gamma(0) beta(.8)   rho(0.2) one(corr 1) sn(9) 设置下,

sigmamore and sigmaless的选项结果还是比较可靠的。

Hausman Test for id=10 and t=5, Chi2 and p are:
original: -15.25902094
sigmamore:  29.52903691(   0.0000)
sigmaless:  75.13764863(   0.0000)

Hausman Test for id=10 and t=15, Chi2 and p are:
original: -6.669215421
sigmamore:  32.64395338(   0.0000)
sigmaless:  41.27695511(   0.0000)

Hausman Test for id=10 and t=25, Chi2 and p are:
original: -21.28631642
sigmamore:  120.9291817(   0.0000)
sigmaless:  234.3414119(   0.0000)

Hausman Test for id=10 and t=35, Chi2 and p are:
original: -8.701909484
sigmamore:  76.33851265(   0.0000)
sigmaless:  97.50908805(   0.0000)

Hausman Test for id=10 and t=45, Chi2 and p are:
original: -10.68627248
sigmamore:  100.0573548(   0.0000)
sigmaless:  128.5431327(   0.0000)

Hausman Test for id=10 and t=55, Chi2 and p are:
original: -15.13057341
sigmamore:   153.630277(   0.0000)
sigmaless:  213.0887759(   0.0000)

Hausman Test for id=110 and t=5, Chi2 and p are:
original: -204.1108341
sigmamore:  396.6423161(   0.0000)
sigmaless:  1433.447853(   0.0000)

Hausman Test for id=110 and t=15, Chi2 and p are:
original: -159.7802374
sigmamore:  867.0220412(   0.0000)
sigmaless:  1828.457879(   0.0000)

Hausman Test for id=110 and t=25, Chi2 and p are:
original: -173.3881576
sigmamore:  1141.329628(   0.0000)
sigmaless:  1939.484031(   0.0000)

Hausman Test for id=110 and t=35, Chi2 and p are:
original: -185.7313451
sigmamore:  1343.709893(   0.0000)
sigmaless:  2053.902414(   0.0000)

Hausman Test for id=110 and t=45, Chi2 and p are:
original: -124.0043726
sigmamore:  1255.145288(   0.0000)
sigmaless:  1681.410243(   0.0000)

Hausman Test for id=110 and t=55, Chi2 and p are:
original: -167.3728299
sigmamore:  1539.464503(   0.0000)
sigmaless:  2054.953033(   0.0000)

Hausman Test for id=210 and t=5, Chi2 and p are:
original: -396.3897801
sigmamore:  752.1097461(   0.0000)
sigmaless:  2607.252553(   0.0000)

Hausman Test for id=210 and t=15, Chi2 and p are:
original: -265.0905343
sigmamore:  1541.541312(   0.0000)
sigmaless:  3019.828984(   0.0000)

Hausman Test for id=210 and t=25, Chi2 and p are:
original: -349.6171619
sigmamore:  2214.708469(   0.0000)
sigmaless:  3831.011697(   0.0000)

Hausman Test for id=210 and t=35, Chi2 and p are:
original: -302.5426819
sigmamore:  2459.981765(   0.0000)
sigmaless:  3697.507898(   0.0000)

Hausman Test for id=210 and t=45, Chi2 and p are:
original: -320.0124319
sigmamore:  2945.197927(   0.0000)
sigmaless:  4275.431054(   0.0000)

Hausman Test for id=210 and t=55, Chi2 and p are:
original: -288.6578172
sigmamore:  2792.530306(   0.0000)
sigmaless:  3671.704793(   0.0000)

Hausman Test for id=310 and t=5, Chi2 and p are:
original: -626.7198051
sigmamore:  1125.110929(   0.0000)
sigmaless:  4115.846741(   0.0000)

Hausman Test for id=310 and t=15, Chi2 and p are:
original:  -542.918111
sigmamore:  2582.553113(   0.0000)
sigmaless:  5765.861605(   0.0000)

Hausman Test for id=310 and t=25, Chi2 and p are:
original: -482.6356457
sigmamore:  3241.396979(   0.0000)
sigmaless:  5534.407436(   0.0000)

Hausman Test for id=310 and t=35, Chi2 and p are:
original: -476.5210627
sigmamore:  3727.976324(   0.0000)
sigmaless:  5679.385494(   0.0000)

Hausman Test for id=310 and t=45, Chi2 and p are:
original:  -489.623454
sigmamore:  4005.721152(   0.0000)
sigmaless:  5596.819492(   0.0000)

Hausman Test for id=310 and t=55, Chi2 and p are:
original: -487.8065058
sigmamore:  4439.652973(   0.0000)
sigmaless:  6002.592097(   0.0000)

Hausman Test for id=410 and t=5, Chi2 and p are:
original: -782.9054589
sigmamore:   1437.64982(   0.0000)
sigmaless:  4774.305137(   0.0000)

Hausman Test for id=410 and t=15, Chi2 and p are:
original: -634.7051804
sigmamore:  3242.604058(   0.0000)
sigmaless:  6860.437457(   0.0000)

Hausman Test for id=410 and t=25, Chi2 and p are:
original: -593.6497115
sigmamore:  4117.028858(   0.0000)
sigmaless:   6880.99711(   0.0000)

Hausman Test for id=410 and t=35, Chi2 and p are:
original: -606.9333066
sigmamore:  4704.018299(   0.0000)
sigmaless:  6997.996537(   0.0000)

Hausman Test for id=410 and t=45, Chi2 and p are:
original: -638.2010935
sigmamore:  5322.375965(   0.0000)
sigmaless:  7469.158631(   0.0000)

Hausman Test for id=410 and t=55, Chi2 and p are:
original:  -628.209798
sigmamore:  5975.773017(   0.0000)
sigmaless:  8125.424338(   0.0000)

Hausman Test for id=510 and t=5, Chi2 and p are:
original: -965.6945473
sigmamore:  1911.737724(   0.0000)
sigmaless:  7652.812628(   0.0000)

Hausman Test for id=510 and t=15, Chi2 and p are:
original: -868.9804265
sigmamore:  4125.969192(   0.0000)
sigmaless:  8948.154518(   0.0000)

Hausman Test for id=510 and t=25, Chi2 and p are:
original: -780.8251597
sigmamore:  5164.891449(   0.0000)
sigmaless:  8682.042576(   0.0000)

Hausman Test for id=510 and t=35, Chi2 and p are:
original: -848.6899724
sigmamore:   6377.53786(   0.0000)
sigmaless:  9907.848252(   0.0000)

Hausman Test for id=510 and t=45, Chi2 and p are:
original: -659.8771127
sigmamore:   5937.10347(   0.0000)
sigmaless:  8008.908472(   0.0000)

Hausman Test for id=510 and t=55, Chi2 and p are:
original: -860.6914346
sigmamore:  7899.906974(   0.0000)
sigmaless:  10997.00555(   0.0000)

Hausman Test for id=610 and t=5, Chi2 and p are:
original: -1249.826331
sigmamore:  2213.849365(   0.0000)
sigmaless:  8054.435848(   0.0000)

Hausman Test for id=610 and t=15, Chi2 and p are:
original: -1193.896281
sigmamore:  5119.036563(   0.0000)
sigmaless:  11577.44937(   0.0000)

Hausman Test for id=610 and t=25, Chi2 and p are:
original: -1014.905754
sigmamore:  6750.323275(   0.0000)
sigmaless:  12111.80212(   0.0000)

Hausman Test for id=610 and t=35, Chi2 and p are:
original: -918.0642674
sigmamore:  7319.428189(   0.0000)
sigmaless:  11137.82897(   0.0000)

Hausman Test for id=610 and t=45, Chi2 and p are:
original: -910.4312819
sigmamore:  8052.200968(   0.0000)
sigmaless:  11394.67158(   0.0000)

Hausman Test for id=610 and t=55, Chi2 and p are:
original: -919.8696786
sigmamore:   8424.72207(   0.0000)
sigmaless:  11248.24061(   0.0000)

Hausman Test for id=710 and t=5, Chi2 and p are:
original: -1499.938973
sigmamore:  2609.465674(   0.0000)
sigmaless:  9861.945899(   0.0000)

Hausman Test for id=710 and t=15, Chi2 and p are:
original: -1313.928206
sigmamore:  5950.808688(   0.0000)
sigmaless:  13451.58269(   0.0000)

Hausman Test for id=710 and t=25, Chi2 and p are:
original: -1279.030836
sigmamore:  7904.988999(   0.0000)
sigmaless:  14230.65714(   0.0000)

Hausman Test for id=710 and t=35, Chi2 and p are:
original: -1213.384352
sigmamore:  9075.103013(   0.0000)
sigmaless:   14295.9841(   0.0000)

Hausman Test for id=710 and t=45, Chi2 and p are:
original: -1377.630383
sigmamore:  10965.33147(   0.0000)
sigmaless:  16688.78913(   0.0000)

Hausman Test for id=710 and t=55, Chi2 and p are:
original: -1231.143884
sigmamore:  10605.48222(   0.0000)
sigmaless:  14559.62048(   0.0000)

Hausman Test for id=810 and t=5, Chi2 and p are:
original: -1804.267056
sigmamore:  2956.589519(   0.0000)
sigmaless:  10963.16921(   0.0000)

Hausman Test for id=810 and t=15, Chi2 and p are:
original: -1522.879524
sigmamore:  6802.834523(   0.0000)
sigmaless:  15442.15403(   0.0000)

Hausman Test for id=810 and t=25, Chi2 and p are:
original: -1427.322598
sigmamore:  9094.205519(   0.0000)
sigmaless:  16508.31737(   0.0000)

Hausman Test for id=810 and t=35, Chi2 and p are:
original: -1156.418494
sigmamore:  9165.284239(   0.0000)
sigmaless:  13543.87541(   0.0000)

Hausman Test for id=810 and t=45, Chi2 and p are:
original: -1142.840707
sigmamore:  10213.34622(   0.0000)
sigmaless:  14189.08871(   0.0000)

Hausman Test for id=810 and t=55, Chi2 and p are:
original:  -1314.14029
sigmamore:  11984.91949(   0.0000)
sigmaless:  16382.35826(   0.0000)

Hausman Test for id=910 and t=5, Chi2 and p are:
original: -2078.144214
sigmamore:  3400.419109(   0.0000)
sigmaless:  13416.44248(   0.0000)

Hausman Test for id=910 and t=15, Chi2 and p are:
original: -1725.028038
sigmamore:  7661.137679(   0.0000)
sigmaless:  17375.32729(   0.0000)

Hausman Test for id=910 and t=25, Chi2 and p are:
original:  -1483.59852
sigmamore:  9843.957342(   0.0000)
sigmaless:  17352.74004(   0.0000)

Hausman Test for id=910 and t=35, Chi2 and p are:
original: -1575.145363
sigmamore:  11823.06675(   0.0000)
sigmaless:  18795.23423(   0.0000)

Hausman Test for id=910 and t=45, Chi2 and p are:
original: -1556.335216
sigmamore:  12806.00071(   0.0000)
sigmaless:  18632.90898(   0.0000)

Hausman Test for id=910 and t=55, Chi2 and p are:
original: -1337.162352
sigmamore:  12460.67542(   0.0000)
sigmaless:  16591.21605(   0.0000)

Hausman Test for id=1010 and t=5, Chi2 and p are:
original: -2126.534423
sigmamore:  3673.687233(   0.0000)
sigmaless:  13491.17894(   0.0000)

Hausman Test for id=1010 and t=15, Chi2 and p are:
original: -1672.283822
sigmamore:  8170.452034(   0.0000)
sigmaless:  17736.57989(   0.0000)

Hausman Test for id=1010 and t=25, Chi2 and p are:
original:  -1544.55727
sigmamore:  10333.59947(   0.0000)
sigmaless:  17492.64983(   0.0000)

Hausman Test for id=1010 and t=35, Chi2 and p are:
original: -1707.334487
sigmamore:  12925.70568(   0.0000)
sigmaless:  20376.36792(   0.0000)

Hausman Test for id=1010 and t=45, Chi2 and p are:
original: -1881.227915
sigmamore:  15066.81365(   0.0000)
sigmaless:   22514.1472(   0.0000)

Hausman Test for id=1010 and t=55, Chi2 and p are:
original:  -1737.59133
sigmamore:  15412.96946(   0.0000)
sigmaless:  21310.94746(   0.0000)

Hausman Test for id=1110 and t=5, Chi2 and p are:
original: -2650.805974
sigmamore:  4098.859825(   0.0000)
sigmaless:   15514.3733(   0.0000)

Hausman Test for id=1110 and t=15, Chi2 and p are:
original: -1934.849956
sigmamore:  9115.629251(   0.0000)
sigmaless:  20129.07967(   0.0000)

Hausman Test for id=1110 and t=25, Chi2 and p are:
original: -1840.216213
sigmamore:  12085.30905(   0.0000)
sigmaless:  21350.25258(   0.0000)

Hausman Test for id=1110 and t=35, Chi2 and p are:
original: -1894.107246
sigmamore:   14258.1422(   0.0000)
sigmaless:  22518.92594(   0.0000)

Hausman Test for id=1110 and t=45, Chi2 and p are:
original: -1839.092334
sigmamore:  15441.27082(   0.0000)
sigmaless:  22350.57254(   0.0000)

Hausman Test for id=1110 and t=55, Chi2 and p are:
original: -1747.405891
sigmamore:  15962.47934(   0.0000)
sigmaless:  21607.20749(   0.0000)

转载请注明:数据分析 » Hausman检验结果为负?—基于模拟分析的释疑

AHP层次分析法的步骤和方法_ahp分析

$
0
0

AHP层次分析法的步骤和方法

关键词:ahp分析法,层次分析法,ahp层次分析法软件,ahp层次分析法教程,ahp层次分析法案例

AHP (Analytic Hierarchy Process)层次分析法是美国运筹学家T. L. Saaty教授于二十世纪70年代提出的一种实用的多方案或多目标的决策方法,是一种定性与定量相结合的决策分析方法。常被运用于多目标、多准则、多要素、多层次的非结构化的复杂决策问题,特别是战略决策问题,具有十分广泛的实用性。用AHP分析问题大体要经过以下五个步骤:建立层次结构模型

  1. 将决策的目标、考虑的因素(决策准则)和决策对象按它们之间的相互关系分为最高层、中间层和最低层,绘出层次结构图。

    AHP层次分析法的步骤和方法
  2. 2构造判断矩阵

    在确定各层次各因素之间的权重时,如果只是定性的结果,则常常不容易被别人接受,因而Saaty等人提出:一致矩阵法,即:

    不把所有因素放在一起比较,而是两两相互比较。

    对比时采用相对尺度,以尽可能减少性质不同因素相互比较的困难,以提高准确度。

    AHP层次分析法的步骤和方法
  3. 3层次单排序

    所谓层次单排序是指,对于上一层某因素而言,本层次各因素的重要性的排序。

    AHP层次分析法的步骤和方法
  4. 4判断矩阵的一致性检验

    所谓一致性是指判断思维的逻辑一致性。如当甲比丙是强烈重要,而乙比丙是稍微重要时,显然甲一定比乙重要。这就是判断思维的逻辑一致性,否则判断就会有矛盾。

    AHP层次分析法的步骤和方法
  5. 5层次总排序

    确定某层所有因素对于总目标相对重要性的排序权值过程,称为层次总排序。

    这一过程是从最高层到最底层依次进行的。对于最高层而言,其层次单排序的结果也就是总排序的结果。

    AHP层次分析法的步骤和方法AHP层次分析法的优点
  1. 1系统性——将对象视作系统,按照分解、比较、判断、综合的思维方式进行决策——系统分析(与机理分析、测试分析并列);
  2. 2实用性——定性与定量相结合,能处理传统的优化方法不能解决的问题;
  3. 3简洁性——计算简便,结果明确,便于决策者直接了解和掌握。

转载请注明:数据分析 » AHP层次分析法的步骤和方法_ahp分析

Viewing all 94 articles
Browse latest View live