一个stata案例_研究中国货币供给量M1和M2，影响货币供给的因素，并预测未来的中国货币供给量

August 25, 2016, 2:08 am

≪ Previous: 常用到的stata命令_stata常用命令_stata命令大全

本文的主要研究对象为中国货币供给量M1和M2，试图需求主要的影响货币供给的因素，并预测未来的中国货币供给量。本文分析所采用的计量软件为STATA，该软件在经济与非经济领域的运用都十分广泛。

一、数据搜集和整理：

Year名义GDPrM1M2P实际GDP
19804517.85.0414.4318.431064262.075
19814862.45.2217.1122.35108.5444479.658
19825294.76.4419.1425.9110.606344786.977
19835934.56.4821.8330.75112.265435286.133
198471716.4829.3241.46115.408866213.561
19858964.47.2332.6248.84125.564847139.26
198610202.27.5640.2462.62133.098737665.137
198711962.57.5645.9176.65142.814948376.224
198814928.37.9854.8792.89169.235718821.011
198916909.211.1357.73109.2199.359668481.756
199018547.910.0468.75139.09203.546219112.378
199121617.88.3684.46175.56209.4490510321.27
199226638.18.1113.17229.99220.759312066.58
199334634.49.62162.8348.8249.8995313859.33
199446759.410.98205.41469.24304.1277315374.92
199558478.111.25239.87607.51349.1386316749.25
199667884.610.07285.15760.95370.4360918325.59
199774462.68.44348.26909.95373.3995819941.8
199878345.26.29389.541044.99363.6911921541.68
199982067.464.52458.371198.98352.7804523263.04
200089468.14.05531.471346.1347.4887525747.05
200197314.84.05598.721583.02344.7088428231.01
2002105172.343.7708.821850.07340.2276230912.35
2003117251.93.6584118.6221222.8339.8873934497.28

其中，GDP取自《2004年中国统计年鉴》，r是按照时间加权的存贷款利率平均值，M1、M2取自易刚《中国货币化进程》，物价指数采用零售业物价指数。

二、回归模型处理：

1、模型：

利用stata软件进行回归，得出的结论为：

由此可以看出，当我们对M1和M2进行估计时，所有的解释变量在5%的显著性水平下都能通过t检验和F检验，调整后的R平方也高达0.99以上，说明模型很强的解释力。

我们先对M1作为被解释变量的模型进行分析：

正态性检验：首先，我们用predict命令生成残差项u1和u2，分别对应于m1和m2。下面，我们分别作出u1和u2的概率密度图，如下所示：

由此我们可以直观的看出，u1和u2比较接近正态性假设。
现在利用两种不同的方法来检验正态性。

正态性检验单位三个命令：

swilk 变量名； sktest 变量名； mvtest normal 变量名。

kdensity x ；画出正态图

（1）首先是Shapiro-Wilk检验：

命令为 swilk 变量名
结论如下：
Shapiro-Wilk Wtest for normal data
VariableObsWVzProb>z
u1240.945221.4780.7960.21299

因此，我们在5%的显著性水平下不能拒绝正态性假设。

（2）然后是Jacque-Bera统计量，

sktest 变量名

结论如下：
Jarque-Beranormality test:1.342Chi(2) 0.5112
Jarque-Beratest for Ho: normality:

由于JB统计量为1.342，因此我们有理由接受正态性的假设。

t检验、F检验：这在最初的分析中已经得出结论，该模型出色的通过了这两项传统检验。

异方差检验：首先，我们仍然采用图示法来观察残差项：

从图中我们可以观察出，残差项的异方差特性并不明显。下面，我们进行数值检验：

（1） Breusch-Pagan检验：

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of m1

chi2(1)= 0.03
Prob > chi2= 0.8700

因为Prob>chi2=0.87，所以无法拒绝原假设，即残差项符合同方差标准。

（2）White检验：

White’s general test statistic :14.51349Chi-sq( 9)P-value =0.1052

因此，在5%的显著性水平下，White检验同样无法拒绝异方差假设。

多重共线性检验：在stata中，有两种方法来检验多重共线性：

（1）一个是采用variance inflation factor指标，如果vif指标大于10，则需要对模型作进一步修正。在该模型中，结论如下：

Variable VIF1/VIF

gdp26.830.0373
p23.070.0434
r4.310.2318

Mean VIF18.07

可以看出，GDP和P之间存在着很强的相关性。原因很简单，因为我们在这里采用的是名义GDP量，其中已经包含了价格因素。所以，我们必须进一步修正模型。在这里，我采用的方法是直接去掉价格指数P，重新建立模型（*）：
用原始数据对（*）回归，结果如下：

可以看出，虽然R平方的值比最初我们所选用的模型略小，但是仍然达到了97%以上的解释力，所以可以接受。当我们重新进行多重共线性检验时，vif的输出结果变为：
VariableVIF1/VIF

gdp1.160.859
r1.160.859

Mean VIF1.16

由于Vif值远远小于10，因此多重共线性被消除了。

（2）stata所带的另外一种检验是collin命令，与vif不同的是，该命令可以在不进行回归之前就数据相关性进行检验。

当采用gdp、p、r三个解释变量时，结果如下：

CollinearityDiagnostics
SQRTR-
VariableVIF VIFToleranceSquared
gdp26.835.180.03730.9627
p23.074.800.04340.9566
r4.312.080.23180.7682

Mean VIF18.07

可以看出，gdp与p之前存在着很强的相关关系，容忍度非常低，所以采用同（1）的方式去掉p，得出结论：

CollinearityDiagnostics
SQRTR-
VariableVIF VIFToleranceSquared

gdp1.161.080.8590.141
r1.161.080.8590.141

Mean VIF1.16

同样，多重共线性被解决。

现在，我们在对（*）式重新做正态性检验和异方差检验。计算得JB=3.656，不能拒绝正态分布假定。但是，当我们进行异方差检验时，输出如下：

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of m1

chi2(1)=15.78
Prob > chi2= 0.0001
White’s general test statistic :16.47866Chi-sq( 5)P-value =.0056

我们发现，当采用去掉p来消除多重共线性时，又导致了异方差的出现。现在，我将暂时搁置这一问题，以继续下面的检验，最后再来考虑模型的重新设定。

模型设定检验：现在，我们试图检查模型中是否忽视了一些重要的解释变量，或者是否添加了不必要的解释变量。

Reset检验：结果如下，

Ramsey RESET test using powers of the fitted values of m1
Ho:model has no omitted variables
F(3, 18) = 203.64
Prob > F =0.0000

证明存在忽略变量，或者模型设定有误。

序列相关性检验：

Durbin-Watson检验：d-statistic ( 3, 24) = 0.4564375，存在正的序列相关。

所以，按照1的思路设定模型存在一定的问题。为了进一步分析，我将在下面的分析中改用实际GDP，并对模型进行重新设定。

2、模型：

对于模型2，如果采用实际GDP进行估算，回归结果如下：

正态性检验：JB统计量为0.4222，说明残差项符合正态分布假定。

T检验、F检验：每一个解释变量都很好的通过了t检验，F统计量为6141.94，调整后的R平方为0.9988，说明模型对因变量的解释能力很强。

多重共线性检验：利用stata中的vif命令，发现即便是采用了实际GDP，实际GDP与价格指数之间仍然存在着很强的相关性，多重共线性不能忽视。

序列相关检验：此时，DW统计量为1.455，虽然仍无法拒绝序列相关性的存在，但比模型1已经有了较大幅度的改善。
3、模型：根据Fisher等式MV=PY，可以推出
为了检验Fisher等式所得出的模型，我们重新整理数据如下：

Year
0.0762760.1857240.2126970.0240.0510510.0357141981
0.0889070.1186440.1588370.0190.0686030.2337161982
0.1208380.1405430.1872590.0150.1042740.0062111983
0.2083580.3431060.3482930.0280.17544501984
0.2500910.1125510.1780030.0880.148980.1157411985
0.138080.2335990.2821460.060.073660.0456431986
0.1725410.1409050.224050.0730.09276901987
0.2479250.1951640.2118720.1850.0531010.0555561988
0.1326940.0521230.1755840.178-0.038460.3947371989
0.0969120.1908890.2737180.0210.07435-0.097931990
0.1655120.2285090.2622040.0290.132665-0.167331991
0.232230.3399240.3100360.0540.169099-0.03111992
0.3001830.4385440.5165880.1320.1485710.1876541993
0.3500850.2617320.3452980.2170.1093550.1413721994
0.2506170.1677620.2946680.1480.0893880.024591995
0.1608550.1887690.2525720.0610.094114-0.104891996
0.09690.2213220.1958080.0080.088194-0.161871997
0.0521420.1185320.148404-0.0260.080228-0.254741998
0.0475110.1766960.14736-0.030.079908-0.28141999
0.0901780.1594780.122704-0.0150.106779-0.103982000
0.0877040.1265360.176005-0.0080.09647602001
0.0807440.1838920.168697-0.0130.094978-0.086422002
0.114855117.6741118.5754-0.0010.115971-0.013512003

我们利用模型进行回归，结论如下：

可以看出，由Fisher公式所构造的这两个模型连基本正态性检验、t检验和F检验都无法通过，存在很大的缺陷。

模型的最终修订：

在利用stata进行了一系列修正之后，我们选择了以下模型作为货币供给量的预测模型：

在该模型中，M1、M2均为名义货币供给量，GDP选用了名义GDP（原因是，价格和实际GDP都会影响到货币供给量，但是如果将二者分别作为解释变量纳入模型中，由于共同的变化趋势，导致多重共线性影响仍然存在。鉴于此，我们采用名义GDP作为二者的加权平均值，起到了很好的效果）、加权平均的年名义利率。在模型中，我们并没有考虑滞后项，原因是各期观察量之间存在很强的相关性，在各种检验中模型均表现良好。

为了解决各期变量之间的序列相关，我们采用了广义差分法，其中由Hildreth-Lu方法经过十次迭代后得出（ =0.5019），然后再进行估计，得到
 （**）
其中

正态性检验：JB统计量为2.538，无法拒绝正态分布假定。

t检验、F检验：从回归可以看出，模型很好的满足了t检验与F检验。

异方差检验：Breusch-Pagan检验所得（1）=0.07，无法拒绝同方差假定；White检验所得（5）=2.073，结论仍然可接受同方差假定。

序列相关检验： Durbin-Watson d-statistic( 3, 22) = 2.154946，比较接近2，序列相关已被消除到了可以接受的范围内。

模型设定检验：利用Ramsey Reset检验得出，模型没有遗失变量或者设定误差。

多重共线性检验：平均的VIF为1.09，远远小于10，因此多重共线性可以忽略不计。

同样，我们可以对M2进行类似方法的估计。在比较以后，我们采用Cochrane-Orcutt计算法估计，得出 =0.2782。在通过加权最小二乘法，输出结果如下：
（**）

正态性检验：JB统计量为0.2424，无法拒绝正态分布假定。

t检验、F检验：从回归可以看出，模型很好的满足了t检验与F检验。

异方差检验：由于采用了加权（稳健）的最小二乘法，所以异方差已被消除。

序列相关检验： Durbin-Watson d-statistic( 3, 22) = 2.020675，相当接近2，序列相关已被消除到了可以接受的范围内。

模型设定检验：利用Ramsey Reset检验得出，模型没有遗失变量或者设定误差。

多重共线性检验：平均的VIF为1.11，远远小于10，因此多重共线性可以忽略不计。

二、模拟与预测：

对2003年以及2004年进行模拟，结论是：

2003年的模拟M1= 782.5445，M2= 2119.44；与真实值的误差分别为6%和4%。
2004年的模拟M1= 949.5175，M2= 2633.26；与真实值的误差分别为1%和4%。

之所以出现一定量的误差，可能与2003、2004年由于外汇储备急剧增加所引起的货币政策改变有关。由于样本容量太小，如果进行chow test可能意义不大。

转载请注明：数据分析 » 一个stata案例_研究中国货币供给量M1和M2，影响货币供给的因素，并预测未来的中国货币供给量

↧

回归方程及回归系数的显著性检验_stata显著性检验

August 28, 2016, 6:46 pm

≪ Previous: 一个stata案例_研究中国货币供给量M1和M2，影响货币供给的因素，并预测未来的中国货币供给量

回归方程及回归系数的显著性检验

关键词：stata显著性检验、stata 系数显著性检验、回归系数显著性t检验、回归系数的显著性检验、回归系数显著性检验

１、回归方程的显著性检验

(1) 回归平方和与剩余平方和

　　建立回归方程以后, 回归效果如何呢？因变量与自变量是否确实存在线性关系呢？这是需要进行统计检验才能加以肯定或否定, 为此, 我们要进一步研究因变量取值的变化规律。的每次取值是有波动的, 这种波动常称为变差, 每次观测值的变差大小, 常用该次观侧值与次观测值的平均值的差(称为离差)来表示, 而全部次观测值的总变差可由总的离差平方和

其中:

　　称为回归平方和, 是回归值与均值之差的平方和, 它反映了自变量的变化所引起的的波动, 其自由度(为自变量的个数)。

　　称为剩余平方和(或称残差平方和), 是实测值与回归值之差的平方和, 它是由试验误差及其它因素引起的, 其自由度。总的离差平方和的自由度为。

　　如果观测值给定, 则总的离差平方和是确定的, 即是确定的, 因此大则小, 反之, 小则大, 所以与都可用来衡量回归效果, 且回归平方和越大则线性回归效果越显著, 或者说剩余平方和越小回归效果越显著, 如果＝0, 则回归超平面过所有观测点; 如果大, 则线性回归效果不好。

(2) 复相关系数

　　为检验总的回归效果, 人们也常引用无量纲指标

　　　　, (3.1)

或

　　　　, (3.2)

称为复相关系数。因为回归平方和实际上是反映回归方程中全部自变量的“方差贡献”, 因此就是这种贡献在总回归平方和中所占的比例, 因此表示全部自变量与因变量的相关程度。显然。复相关系数越接近１, 回归效果就越好, 因此它可以作为检验总的回归效果的一个指标。但应注意, 与回归方程中自变量的个数及观测组数有关, 当相对于并不很大时, 常有较大的值, 因此实际计算中应注意与的适当比例, 一般认为应取至少为的５到10倍为宜。

(3) 检验

　　要检验与是否存在线性关系, 就是要检验假设

　　　　, (3.3)

当假设成立时, 则与无线性关系, 否则认为线性关系显著。检验假设应用统计量

　　　　, (3.4)

这是两个方差之比, 它服从自由度为及的分布, 即

　　　　, (3.5)

用此统计量可检验回归的总体效果。如果假设成立, 则当给定检验水平α下, 统计量应有

　　　　≤, (3.6)

对于给定的置信度α, 由分布表可查得的值, 如果根据统计量算得的值为, 则拒绝假设, 即不能认为全部为O, 即个自变量的总体回归效果是显著的, 否则认为回归效果不显著。

　　利用检验对回归方程进行显著性检验的方法称为方差分析。上面对回归效果的讨论可归结于一个方差分析表中, 如表3.1。

表3.1 方差分析表

来源	平方和	自由度	方差	方差比
回归
剩余
总计

　　根据与的定义, 可以导出与的以下关系:

　　　　。

　　利用这两个关系式可以解决值多大时回归效果才算是显著的问题。因为对给定的检验水平α, 由分布表可查出的临界值, 然后由即可求出的临界值:

　　　　, (3.7)

当时, 则认为回归效果显著。
例3.1 利用方差分析对例2.1的回归方程进行显著性检验。

　　方差分析结果见表3.2。

表3.2

来源	平方和	自由度	方差	方差比
回归
剩余
总计

取检验水平α＝0.05, 查分布表得, 而, 所以例2.1的回归方程回归效果是显著的。

２、回归系数的显著性检验

　　前面讨论了回归方程中全部自变量的总体回归效果, 但总体回归效果显著并不说明每个自变量对因变量都是重要的, 即可能有某个自变量对并不起作用或者能被其它的的作用所代替, 因此对这种自变量我们希望从回归方程中剔除, 这样可以建立更简单的回归方程。显然某个自变量如果对作用不显著, 则它的系数就应取值为0, 因此检验每个自变量是否显著, 就要检验假设:

　　　　, , (3.8)

(1) 检验:

　　在假设下, 可应用检验:

　　　　, , (3.9)

其中为矩阵的对角线上第个元素。

　　对给定的检验水平α, 从分布表中可查出与α对应的临界值, 如果有, 则拒绝假设, 即认为与0有显著差异, 这说明对有重要作用不应剔除; 如果有则接受假设, 即认为成立, 这说明对不起作用, 应予剔除。

(2) 检验:

　　检验假设, 亦可用服从自由度分别为1与的分布的统计量

　　　　, (3.10)

其中为矩阵的主对角线上第个元素。对于给定的检验水平α, 从分布表中可查得临界, 如果有, 则拒绝假设, 认为对有重要作用。如果, 则接受假设, 即认为自变量对不起重要作用, 可以剔除。一般一次检验只剔除一个自变量, 且这个自变量是所有不显著自变量中值最小者, 然后再建立回归方程, 并继续进行检验, 直到建立的回归方程及各个自变量均显著为止。

　　最后指出, 上述对各自变量进行显著性检验采用的两种统计量与实际上是等价的, 因为由(3.9)式及(3.10)式知, 有

　　　　 (3.11)

例3.2 对例2.1的回归方程各系数进行显著性检验。

　　经计算:

于是

其中＝0.002223, ＝0.004577。由(3.7)式知

查分布表得, , 因为, , 所以两个自变量及都是显著的。又由, 说明体长比胸围对体重的影响更大。

　　如果应用检验, 查分布表有, 又由

因为, , 因此及都是显著的, 均为重要变量, 应保留在回归方程中。

(3) 偏回归平方和

　　检验某一自变量是否显著, 还可应用偏回归平方和进行检验。

　　个自变量的回归平方和为

如果自个自变量中去掉, 则剩下的个自变量的回归平方和设为, 并设

则就表示变量在回归平方和中的贡献, 称为的偏回归平方和或贡献。可以证明

　　　　, (3.12)

偏回归平方和越大, 说明在回归方程中越重要, 对的作用和影响越大, 或者说对回归方程的贡献越大。因此偏回归平方和也是用来衡量每个自变量在回归方程中作用大小(贡献大小)的一个指标。

　　例如在例2.1中, 和的偏回归平方和分别为

　　, 说明在回归方程中的作用比大。

　　又如在例2.2中及的偏回归平方和分别为:

　　的值最小, 即在回归方程中所起的作用最小, 最大, 说明在回归方程中所起的作用最大。

转载请注明：数据分析 » 回归方程及回归系数的显著性检验_stata显著性检验

↧

stata相关性分析命令_stata相关性分析_stata做相关性分析

August 28, 2016, 6:48 pm

≫ Next: 用stata的xsmle的命令做空间面板回归_缺失数据处理

≪ Previous: 回归方程及回归系数的显著性检验_stata显著性检验

stata相关性分析命令

关键词：stata相关性分析、stata做相关性分析、stata 相关性检验命令、stata变量相关性分析、stata相关性分析结果

相关性分析
（一）相关性分析 1、Pearson相关系数命令格式：correlate（简写：cor或corr）[varlist] [if] [in] [weight] [,options] 2、spearman相关系数命令格式：spearman[varlist], stats(rho p)
3、在Stata中，命令corr用于计算一组变量间的协方差或相关系数矩阵；
4、命令pwcorr可用于计算一组变量中两两变量的相关系数，同时还可以对相关系数的显著性进行检验；option选项中加上sig可显示显著性水平：pwcorr[varlist] ,sig
5、命令pcorr 用于计算一组变量中两两变量的偏相关系数并进行显著性检验。 6、Spearman 和 Pearson 检验同在一个表的命令：corrtbl[varlist] ,corrvars ([varlist])
输出结果中，上三角为Spearman相关系数和显著水平，下三角为Pearson系数和显著水平。（二）输出相关系数表到word或Excel中
例如：logout, save(mytable) word replace: pwcorr_a price mpg rep78 headroom trunk, star1(0.01) star5(0.05) star10(0.1)

截面数据单方程线性回归模型的Stata实现
命令格式：regress（简写：reg）depvar indepvars [if] [in] [weigh] [option] （depvar表示因变量， indepvars表示自变量）

Stata回归结果的导出
1、在命令窗口中输入：ssc install esttab，安装命令 esttab 2、reg 回归
3、esttab using filename.rtf 将以word形式输出回归结果，后缀改成.xls或者.csv则以Excel格式输出，输出内容为变量名称和相应的回归系数，t值，显著性水平标识。系统默认显著性水平是0.001，0.01和0.05，若要改成0.01，0.05和0.1，则输出esttab m1 m2 using aaa.rtf, star(* 0.10 ** 0.05 *** 0.01)。
4、批量输出回归结果：每运行一个regression，存起来：est store m1。m1是你要改的，第一个model所以我叫m1，第二个的话指令就变成est store m2，依次类推，最后运行指令：esttab m1 m2 … using test.rtf。
esttab m11111 using aaaaa.rtf, star(* 0.10 ** 0.05 *** 0.01)b(%6.4f)
5、outreg2可以将回归结果导入word、excle、latex等，而且可以根据自己需要改变格式： ssc install outreg2 use auto,clear [varlist] est store m1
outreg2 [m1] using test.doc,replace

合并样本（将关键词相同的多个样本合并为一个）命令格式：duplicates drop varlist ,force
例如将同一企业在同一天发生的多起并购合为一起，可根据证券代码和公告日期关键词，将其合并，命令：duplicates drop company_id event_date ,force
十三、均值t检验
命令格式：ttest CAR1 == CAR2, unpaired
十四、中位数Z检验（非参数Wilcoxon秩和检验）命令格式：ranksum var, by(groupvar) groupvar为分组变量

↧

用stata的xsmle的命令做空间面板回归_缺失数据处理

August 29, 2016, 7:22 pm

≫ Next: 用xtscc命令做不平衡面板数据的回归的问题

我用stata的xsmle命令做空间面板数据回归

关键词： stata面板回归命令 stata命令xsmle stata 面板数据回归面板分位数回归 stata

提示数据不是highly balanced，因为自变量有缺失值

我的数据缺失值比较多，是一定要用插值法补齐么？

不知道stata有没有其他的命令可以处理这种有缺失值的空间面板回归？

或者matlab，R有相关的程序？

xsmle fits fixed or random effects spatial models for balanced panel data. however the mi prefix command can be used xsmle in the unbalanced case. for example:

. webuse mheart5 (1)

. mi set mlong (2)

. mi register imputed age bmi (3)

. set seed 29390 (4)

. mi impute mvn age bmi = attack smokes hsgrad female, add(10) (5)

. mi estimate: logistic attack smokes age bmi hsgrad female (6)

转载请注明：数据分析 » 用stata的xsmle的命令做空间面板回归_缺失数据处理

↧

用xtscc命令做不平衡面板数据的回归的问题

November 11, 2016, 7:38 pm

≫ Next: 回归分析求助-movestay命令_movestay stata软件

≪ Previous: 用stata的xsmle的命令做空间面板回归_缺失数据处理

做不平衡面板数据的回归出现以下结果看不懂。。。希望大侠帮助~~
tsset id year
panel variable:  id (unbalanced)
time variable:  year, 2006 to 2011, but with gaps
delta:  1 unit

. xtscc f1 nbe nde rd alr scal na
_TS_p_delta_getnumb():  3499  strtoreal() not found
_TS_p_delta_increment():    –  function returned error
_TS_p_delta():    –  function returned error
<istmt>:    –  function returned error
以上是我的运行结果…

_TS_p_delta_getnumb():  3499  strtoreal() not found
_TS_p_delta_increment():    –  function returned error
_TS_p_delta():    –  function returned error
<istmt>:    –  function returned error
请问这个是什么意思？是不是我的数据的问题？附件是部分数据请大侠帮忙

主程序没法升级..但是xtscc命令的部分全部装好了不知道是什么原因，我用的是stata12 后来用stata11也做了一下，返回结果是一样的。翻了help文件也不知道怎么回事，

. clear

. import excel “D:tempdata_help.xlsx”, sheet(“Sheet1”) firstrow

. rename _all, lower

. des

Contains data
obs:          762
vars:          9
size:       43,434
—————————————————————————————————
storage  display    value
variable name type format    label    variable label
—————————————————————————————————
id             str6 %9s                   ID
year          int %10.0g                YEAR
f1             double %10.0g                f1
nbe          double %10.0g                NBe
nde          double %10.0g                NDe
rd             double %10.0g                R&D
alr          double %10.0g                ALR
scal          double %10.0g                SCAL
na             byte %10.0g                NA
—————————————————————————————————
Sorted by:
Note:  dataset has changed since last saved

.
. destring id,replace
id has all characters numeric; replaced as long

.
. tsset id year
panel variable:  id (unbalanced)
time variable:  year, 2006 to 2011, but with gaps
delta:  1 unit

. xtscc f1 nbe nde rd alr scal na

Regression with Driscoll-Kraay standard errors Number of obs    =    762
Method: Pooled OLS                            Number of groups  =    228
Group variable (i): id                         F(  6, 227)    = 497.85
maximum lag: 2                                  Prob > F       = 0.0000
R-squared       = 0.0452
Root MSE       = 0.9810

——————————————————————————
|          Drisc/Kraay
f1 |    Coef. Std. Err.    t P>|t|    [95% Conf. Interval]
————-+—————————————————————-
nbe |  -.0066432 .0052169 -1.27 0.204 -.0169229 .0036365
nde | -.002377 .0041905 -0.57 0.571 -.0106342 .0058802
rd | 5.49e-07 4.22e-07    1.30 0.195 -2.83e-07 1.38e-06
alr |  -.0057797 .0007994 -7.23 0.000 -.0073549 -.0042044
scal | .0000585 6.02e-06    9.72 0.000    .0000466 .0000704
na |  -.1142652 .0395334 -2.89 0.004 -.1921645 -.0363658
_cons | .2678109 .0425248    6.30 0.000    .1840172 .3516047
——————————————————————————

转载请注明：数据分析 » 用xtscc命令做不平衡面板数据的回归的问题

↧

回归分析求助-movestay命令_movestay stata软件

November 12, 2016, 7:41 pm

≫ Next: heckman两步法stata命令是多少，第一步的命令多少，第二部的命令多少

≪ Previous: 用xtscc命令做不平衡面板数据的回归的问题

在stata中使用movestay命令进行内生转换回归时，第一阶段（信贷配给概率估计）的自变量始终是多于第二阶段（收入的影响因素）的自变量，如何才能使第一阶段（信贷配给概率估计）的自变量比第二阶段（收入的影响因素）的自变量少？

我汗，第一阶段的概率估计必须自变量多，这是在估计反事实框架，否则你估计出的概率在第二阶段的回归中偏误太大。

恩恩，最初是我理解错了，现在已经明白了。内生转换的基本假设就是影响收入的变量会同时影响其信贷配给概率。谢谢！
另外想请教一下估计结果中的rho_1和rho_2是什么意思？使用说明中指提到了它们的系数是否为正，不懂它们的含义，请赐教！

最佳解答：

movestay estimates all of the parameters in the model:

(regression equation for regime 0: y0 is depvar0, x1 is varlist0)
y0 = x0 * b0 + e_0

(regression equation for regime 1: y1 is depvar1, x1 is varlist1)
y1 = x1 * b1 + e_1

      (selection equation: Z is varlist_s)
            y0 observed if Zg + u <= 0
            y1 observed if Zg + u > 0

      where:
            e_0 ~ N(0, sigma0)
            e_1 ~ N(0, sigma1)
            u ~ N(0, 1)
            corr(e_0, u) = rho_0
            corr(e_1, u) = rho_1

前辈您好，能请教您一些关于内生转换模型STATA实现的过程么？

movestay命令

我看了下stata Journal2004对于movestay这个命令的介绍，movestay用的是充分信息最大似然法，我想请教下在这种估计方法下，是不是并未将2阶段估计法中所提到的遗漏变量纳入回归结果中呢？最近在做论文，这个问题一直非常困惑~

我不确定你所说的 2 阶段估计法是否在此模型中可以适用（就好像 Heckman 的 sample selection model），但用 MLE 应该没有你所担心的遗漏变量问题！

转载请注明：数据分析 » 回归分析求助-movestay命令_movestay stata软件

↧

heckman两步法stata命令是多少，第一步的命令多少，第二部的命令多少

November 13, 2016, 7:41 pm

≫ Next: 如何一次定义与多个虚拟变量的交互项_Stata12做回归如何建立交互项

≪ Previous: 回归分析求助-movestay命令_movestay stata软件

heckman两步法stata命令是多少，第一步的命令多少，第二部的命令多少

解答：直接heckman 就可以求出最终结果。带着twostep。
如果你要看两步的结果的话，那么：
第一步应该是：probit 命令对heckman中的select（）中的变量进行回归。
然后计算lamda和delta的估计值。
第二步是最小二乘回归。即可以得出结果。regress ，但需要注意解释变量都包括哪些。
具体看格林第五版中文847页。

heckman y x1 x2 x3,select() twostep

select()的括号里是什么变量。
工具变量怎么弄呢，不是要一个工具变量吗？

知道了。你需要将参考被解释变量：wage 生成一个z变量。wage中观测不到的（里面是个点），z记为0，否则记为1.
然后将z对select中的变量回归。
（我试了一下，使用matlab可以得到相应结果）。

是格林847页中22-20中的选择机制，即probit回归。

第二步最小二乘回归是wage（可以观测的数据）对相应的变量和lambda的估计值（注意这里lambda的估计值多于wage的个数，所以需要选择对应wage的部分）。

heckman y x1 x2 x3,select() twostep
用这个命令一步搞定，怎么设置呢。理论我基本理解。是stata命令不会用
select 括号里的变量是与y什么关系的，工具变量放哪，虚拟变量放哪

最佳解答：

select里面的变量，注意，例子中
heckman wage educ age, select(married children educ age) twostep

前面wage是被解释变量，相当于格林书中的y（有一部分不能观测）
educ和age 相当于x（当然，常数项这儿没写出来）。
select中的变量则相当于书中的w。（常数项也没写）。
z没有写出来，但我觉得它是依据wage自动隐含的变量。（wage，可观测是z=1，否则z=0）；
命令解释中，有一个语法：
heckman depvar [indepvars], select(depvar_s = varlist_s) [twostep]
这个就有depvar_s。

你可以生产z，然后代入语法。
heckman depvar [indepvars], select(depvar_s = varlist_s) [twostep]
中试一下，结果应该一样。

这些我也懂。但是工具变量是哪个呢。select括号里为什么选那几个变量。问题在这。

我认为这儿没有工具变量这一说吧？如果虚拟变量的话，看你使用的虚拟变量在选择方程还是回归模型中。比如格林书中的849页，例子中就有一个虚拟变量city在回归模型中（y的方程）。

844页的例子，说样本选择或者从属断尾。我觉得这儿揭示了为什么需要选择机制。至于select中为什么选择这些变量，可能要考虑哪些因素会影响个体的这种选择，比如847页妇女是否劳动，哪些因素会影响这一选择？不知我的理解正确吗？供参考。

我觉得不需要工具变量。没看到过样本选择模型（sample selection model ）与工具变量（instrumental variable）联系在一起。
我觉得你弄混工具变量的定义了。
某一个变量与模型中随机解释变量高度相关，但却不与随机误差项相关，那么就可以用此变量与模型中相应回归系数得到一个一致估计量，这个变量就称为工具变量（这是百度来的），可以看一下伍德里奇的计量经济学导论第三版中文，493页。对工具变量的定义。

至于哪些变量放到select里面：
我觉得就是你要考虑的内容中，你认为哪些变量决定了样本的选择，那么就可以放到select里面。

不过你看这篇文章：技能高中还是普通高中？——中国农村学生的教育选择.pdf中，也提到了工具变量，
注意，，本文用工具变量法控制能力偏误和测量误差。（他这里是能力偏误和测量误差，我认为跟样本选择没有关系）
同样，这篇文章中，提到（第四页）
(2)式中，canyu是二元劳动参与指标，括号内不等式成立取值为 1，否则为 0，工资只有在
canyu=1时，才能被观测到。 X2是影响劳动参与的外生向量，△是解释变量的系数向量，是
误差项。本文期望得到模型 (1)与 (2)联合一致估计。

请教大家，heckman样本选择模型中的第二步中的因变量必须是连续变量吗？heckman两步法中的第二步模型，里面的因变量必须是连续变量吗？

解答：

第一步必须是probit或者logit，
第二步没有模型要求。
需要注意的是：两步中的自变量必须是有差异的，不能全部雷同。

转载请注明：数据分析 » heckman两步法stata命令是多少，第一步的命令多少，第二部的命令多少

↧

如何一次定义与多个虚拟变量的交互项_Stata12做回归如何建立交互项

November 15, 2016, 4:41 pm

≫ Next: stata的PSM倾向得分匹配结果怎么看

≪ Previous: heckman两步法stata命令是多少，第一步的命令多少，第二部的命令多少

我现在有30个虚拟变量，我想定义另一个解释变量与这30个虚拟变量的交互项，也就是30个交互项，不知怎么一次生成，请教高手。

你可以试一下使用stata自带的自动生成交叉变量的命令，Interaction expansion，或者是使用 Data > Create or change data > Other variable-creation commands > Interaction expansion 来生成交叉变量

如果是时间虚拟变量的话，回归命令：reg y x1 c.x1#i.year

这样做肯定不行，交互项不是简单的相乘，比如0,1和另一组也是0,1，按照交互原则，应该是有四个组合的，但这里相乘的话只有0,1两种结果；又比如1,2和1,2,3，这里应该是有6种情况，但如果相乘的话，就只有1,2,3，4,6五种情况了，肯定是不行的

Stata12做回归如何建立交互项

比如说 X、Y两个自变量，若要在stata12中进行回归时建立交互项，那么交互项该如何表示

建立新变量

gen z=x*y

Title

[U] 11.4.3 Factor variables

Description

Factor variables are extensions of varlists of existing variables. When a command allows factor variables, in
addition to typing variable names from your data, you can type factor variables, which might look like

i.varname

i.varname#i.varname

i.varname#i.varname#i.varname

i.varname##i.varname

i.varname##i.varname##i.varname

Factor variables create indicator variables from categorical variables, interactions of indicators of categorical
variables, interactions of categorical and continuous variables, and interactions of continuous variables
(polynomials). They are allowed with most estimation and postestimation commands, along with a few other
commands.

There are four factor-variable operators:

      Operator  Description
      ————————————————————————————————————-
      i.       unary operator to specify indicators
      c.       unary operator to treat as continuous
      #       binary operator to specify interactions
      ##       binary operator to specify factorial interactions
      ————————————————————————————————————-

The indicators and interactions created by factor-variable operators are referred to as virtual variables. They
act like variables in varlists but do not exist in the dataset.

Categorical variables to which factor-variable operators are applied must contain nonnegative integers with values
in the range 0 to 32,740, inclusive.

Factor variables may be combined with the L. and F. time-series operators.

Remarks

Remarks are presented under the following headings:

      Basic examples
      Base levels
      Selecting levels
      Applying operators to a group of variables

Basic examples

Here are some examples of use of the operators:

      Factor
      specification    Result
      ————————————————————————————————————-
      i.group          indicators for levels of group

i.group#i.sex indicators for each combination of levels of group and sex, a two-way interaction

group#sex same as i.group#i.sex

group#sex#arm indicators for each combination of levels of group, sex, and arm, a three-way interaction

group##sex same as i.group i.sex group#sex

group##sex##arm same as i.group i.sex i.arm group#sex group#arm sex#arm group#sex#arm

sex#c.age two variables — age for males and 0 elsewhere, and age for females and 0 elsewhere; if age
is also in the model, one of the two virtual variables will be treated as a base

sex##c.age same as i.sex age sex#c.age

c.age same as age

c.age#c.age age squared

c.age#c.age#c.age age cubed
————————————————————————————————————-

Base levels

You can specify the base level of a factor variable by using the ib. operator. The syntax is

         Base
         operator(*) Description
         ———————————————————————————————————–
         ib#.          use # as base, #=value of variable
         ib(##).       use the #th ordered value as base (**)
         ib(first).    use smallest value as base (the default)
         ib(last).    use largest value as base
         ib(freq).    use most frequent value as base
         ibn.          no base level
         ———————————————————————————————————–
         (*) The i may be omitted.  For instance, you may type ib2.group or b2.group.
         (**) For example, ib(#2). means to use the second value as the base.

If you want to use group==3 as the base in a regression, you can type,

. regress y i.sex ib3.group

You can also permanently set the base levels of categorical variables by using the fvset command.

我觉得做交互项最好的方式还是先乘起来，再进入模型

anova wage children married children#married c.education
你用的周广肃的教材吧？他用stata10.0做的，你当然运行不了。没看提示嘛，那个命令只适合于11.0以下版本

转载请注明：数据分析 » 如何一次定义与多个虚拟变量的交互项_Stata12做回归如何建立交互项

↧

stata的PSM倾向得分匹配结果怎么看

December 8, 2016, 6:37 pm

≫ Next: 如何将stata中的字符型数据转为数值型

≪ Previous: 如何一次定义与多个虚拟变量的交互项_Stata12做回归如何建立交互项

stata的PSM倾向得分匹配结果怎么看

关键词：psm倾向得分匹配法、倾向得分匹配 stata

我用stata做了一个PSM倾向得分匹配，出来这样一个结果：

Variable       Sample Treated          Controls          Difference          S.E.                T-stat
y                Unmatched 6.23671406 4.88993499 1.34677907 0.216637056 6.22
ATT 6.23671406 5.77349318 0.463220881 0.199190243 2.33
ATU 4.88921619 5.37182355 0.482607356 .                   .
ATE                                  0.482491208 .                   .

ATT的结果为正数我能看懂，表示处理组相比如果没有处理会有0.46的提升。但是ATU是什么意思？是正数还是负数？表示控制组如果变成处理组会有0.48的提升还是0.48的下降呢？谢谢大家，请大牛们赐教！

解答：

ATE: average treatment effect ATE = E(Y_1 – Y_0)
ATT: average treatment effect on the treated
ATT = E(Y_1 – Y_0 | D = 1)
ATU: average treatment effect on the untreated
ATU = E(Y_1 – Y_0 | D= 0)

追问：这个我知道，可是那些数字怎么看？比如那个0.48，表示ATU是正0.48，还是负0.48？

追答：理解公式就理解interpretation了

追问：ATU那行，Treated那栏里的值是： 4.88921619；Controls那栏里的值是： 5.37182355 ；Difference那栏里的值是：0.482607356 。按照公式ATU应该是负的0.4826，为什么Difference给出的值是正数？不明白

追答：ATT、ATU、和ATE都是处理效应，如果研究的问题是参加培训是否增加收入，那么以上三个处理效应都应该是“参加培训的人的平均收入–没参加培训的人的平均收入”。只是计算ATU时，处理组和控制组对调了，这时处理组是没有参加培训的那组，控制组是应该不参加培训（依据倾向得分）但是参加了培训的那组。所以，这时的ATU不是处理组减控制组，而是控制组减处理组，所以楼主问题中ATU应该等于正的0.48。其实不用纠结这个，直接看Difference就是了，他报告的是正数就是正数，负数就是负数，反正都是衡量的处理效应，即参加培训对收入的影响。另外，楼主下次问问题时可不可以贴图，粘贴的表格是乱的，没法看。

追问：谢谢！请问大牛，怎么才能选到合适的匹配变量，让分年度匹配时，每年的平衡性假设都能实现

追答：我不是大牛，小牛都不算。匹配变量要选能够影响D(处理的概率)和y（就是最终的被解释变量）的变量。举个例子，如果是研究参加培训是否影响未来收入，那么这里D就是是否参加培训，y就是未来收入。匹配变量尽可能丰富些。至于满足平衡性假设，要不断地试，知道满足为止。
这个陈强老师的书上都有

转载请注明：数据分析 » stata的PSM倾向得分匹配结果怎么看

↧

如何将stata中的字符型数据转为数值型

December 8, 2016, 7:13 pm

≫ Next: 用STATA做GMM指令_stata gmm_系统gmm stata 命令

≪ Previous: stata的PSM倾向得分匹配结果怎么看

如何将stata中的字符型数据转为数值型

关键词：stata字符转数值、stata 数值型转字符型

我从Excel表中将年龄数据粘贴到了stata中，不只为什么显示为红色字（即为字符型），我使用destring a103，replace的命令，结果显示a103 contains nonnumeric characters; no replace，然后仍然还是字符型的，我应该怎么办才能转化为数值型

把nonnumeric characters改一下再重新用destring命令

试一下encode varname, gen (newvarname)。varname是字符型变量，newvarname没问题的话就是转变后的数值型变量啦

encode在楼主的例子里面恐怕是不合适的，Stata的说明：
Do not use encode if varname contains numbers that merely happen to be stored as strings; instead, use generate newvar = real(varname) or destring

已成功转换为数值型了，但是又出现了一个新问题，很奇怪的，我使用了list a103a b104 if a103a<=30&b104==1这个命令，但怎么列出来的a103a还有大于30的呢

+————–+
| a103a b104 |
|————–|
99. | 34    1 |
100. | 35    1 |
267. | 34    1 |
268. | 30    1 |
291. | 28    1 |
|————–|
347. | 26    1 |
348. | 24    1 |
588. | 29    1 |
589. | 24    1 |
725. | 34    1 |
|————–|
751. | 30    1 |
1044. | 27    1 |
1045. | 26    1 |
1090. | 27    1 |
1132. | 27    1 |
|————–|
1133. | 27    1 |
1156. | 34    1 |
1194. | 32    1 |
1357. | 35    1 |
1364. | 25    1 |
|————–|
1365. | 22    1 |
1373. | 20    1 |
1524. | 28    1 |
1556. | 32    1 |
1557. | 31    1 |
|————–|
1605. | 35    1 |
1777. | 32    1 |
1832. | 27    1 |
+————–+

你这个例子里用encode处理字符变数字是不合适的。请看看Stata对encode的说明：encode creates a new variable named newvar based on the string variable varname, creating, adding to, or just using (as necessary) the value label newvar or, if specified, name. Do not use encode if varname contains numbers that merely happen to be stored as strings; instead, use generate newvar = real(varname) or destring; see real() or [D]destring.

这个说的很明白了，“Do not use encode if varname contains numbers that merely happen to be stored as strings; instead, use generate newvar = real(varname) or destring;”

至于你用destring为什么出现问题，你的错误提示说明，你那个变量里面存在非数字的字符。你应该仔细检查一下，变量里存在什么字符。如果你确认这个变量就应该是数字，可以直接转换的话。那么，可以在destring后面加上force参数
destring var, replace force

force参数的作用是“convert nonnumeric strings to missing values”

转载请注明：数据分析 » 如何将stata中的字符型数据转为数值型

↧

用STATA做GMM指令_stata gmm_系统gmm stata 命令

December 9, 2016, 6:42 pm

≫ Next: Stata基本操作汇总_Stata常用命令_stata基本命令

≪ Previous: 如何将stata中的字符型数据转为数值型

用STATA做GMM指令

关键词：stata gmm、系统gmm stata 命令

有哪位知道GMM的指令不，stata盲刚学用这个软件不会，做论文时要用GMM来回归。还想请教的是用GMM时一定是方程里存在滞后项才可以用GMM分析吗，怎么知道变量是不是内生性问题啊？？？烦请告知呀~

解答：现行单方程可以使用ivregress gmm，非线性和多方程的使用gmm

追问：这个我知道，但是我不清楚差分GMM和系统GMM的指令分别是什么，我看了王志刚老师的那本书，也没看出差分的和系统指令的区别，里面突然冒出个ys我硬是没看懂是表示什么。。。。

问：同样的纠结，我也在学习GMM，基本操作都会了，但是对于GMM中内生变量、外生变量、前定变量这三个变量的确定比较困惑，之前我也发过贴，但是没人给我解答，楼主要是解决了，告诉我声，谢谢啦

答：内生性本来就很难解决啊国外的那些都很难解决的不必纠结在这当然内生性解决的好说明你很牛逼了

精彩解答：

差分GMM xtabond depvar indpvar
系统GMM xtdpdsys depvar indpvar

时间点比较少时一阶GMM的估计结果可能不是无偏的，系统GMM能更好地解决内生性问题。
可以参考Arellano和Bond在1991和1995年的研究，还有Blundell和Bond1998年的研究

解答：一、解释变量内生性检验
首先检验解释变量内生性（解释变量内生性的Hausman 检验：使用工具变量法的前提是存在内生解释变量。Hausman 检验的原假设为：所有解释变量均为外生变量，如果拒绝，则认为存在内生解释变量，要用IV；反之，如果接受，则认为不存在内生解释变量，应该使用OLS。
reg ldi lofdi
estimates store ols
xtivreg ldi (lofdi=l.lofdi ldep lexr)
estimates store iv
hausman iv ols
（在面板数据中使用工具变量，Stata提供了如下命令来执行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) （选择项可以为fe，re等，表示固定效应、随机效应等。详见help xtivreg）
如果存在内生解释变量，则应该选用工具变量，工具变量个数不少于方程中内生解释变量的个数。“恰好识别”时用2SLS。2SLS的实质是把内生解释变量分成两部分，即由工具变量所造成的外生的变动部分，以及与扰动项相关的其他部分；然后，把被解释变量对中的这个外生部分进行回归，从而满足OLS前定变量的要求而得到一致估计量。tptqtp
二、异方差与自相关检验
在球型扰动项的假定下，2SLS是最有效的。但如果扰动项存在异方差或自相关，
面板异方差检验：
xtgls enc invs exp imp esc mrl,igls panel(het)
estimates store hetero
xtgls enc invs exp imp esc mrl,igls
estimates store homo
local df = e(N_g) – 1
lrtest hetero homo, df(`df’)
面板自相关：xtserial enc invs exp imp esc mrl
则存在一种更有效的方法，即GMM。从某种意义上，GMM之于2SLS正如GLS之于OLS。好识别的情况下，GMM还原为普通的工具变量法；过度识别时传统的矩估计法行不通，只有这时才有必要使用GMM，过度识别检验（Overidentification Test或J Test）：estat overid
三、工具变量效果验证
工具变量：工具变量要求与内生解释变量相关，但又不能与被解释变量的扰动项相关。由于这两个要求常常是矛盾的，故在实践上寻找合适的工具变量常常很困难，需要相当的想象力与创作性。常用滞后变量。
需要做的检验：
检验工具变量的有效性：
（1）检验工具变量与解释变量的相关性
如果工具变量z与内生解释变量完全不相关，则无法使用工具变量法；如果与仅仅微弱地相关，。这种工具变量被称为“弱工具变量”（weak instruments）后果就象样本容量过小。检验弱工具变量的一个经验规则是，如果在第一阶段回归中，F统计量大于10，则可不必担心弱工具变量问题。Stata命令：estat first（显示第一个阶段回归中的统计量）
（2）检验工具变量的外生性（接受原假设好）
在恰好识别的情况下，无法检验工具变量是否与扰动项相关。在过度识别（工具变量个数>内生变量个数）的情况下，则可进行过度识别检验（Overidentification Test），检验原假设所有工具变量都是外生的。如果拒绝该原假设，则认为至少某个变量不是外生的，即与扰动项相关。0H
Sargan统计量，Stata命令：estat overid
四、GMM过程
在Stata输入以下命令，就可以进行对面板数据的GMM估计。
. ssc install ivreg2 （安装程序ivreg2 ）
. ssc install ranktest （安装另外一个在运行ivreg2 时需要用到的辅助程序ranktest）
. use “traffic.dta”（打开面板数据）
. xtset panelvar timevar （设置面板变量及时间变量）
. ivreg2 y x1 (x2=z1 z2),gmm2s （进行面板GMM估计，其中2s指的是2-step GMM）

你好我想问一下 ivreg2 y x1 (x2=z1 z2),gmm2s （进行面板GMM估计，其中2s指的是2-step GMM）控制地区或时间固定效应了么？与xtireg2 y x1 (x2=z1 z2)，fe gmm 区别在哪？谢谢啦

请问一阶GMM和二阶GMM做模型时用哪个啊，困惑中的小白~~

请问这句怎么解读？ivreg2 y x1 (x2=z1 z2),gmm2s （进行面板GMM估计，其中2s指的是2-step GMM）

答：y是因变量，x1 x2 是自变量，其中x2用工具变量z1和z2代理

转载请注明：数据分析 » 用STATA做GMM指令_stata gmm_系统gmm stata 命令

↧

Stata基本操作汇总_Stata常用命令_stata基本命令

December 9, 2016, 7:13 pm

≫ Next: 如何让stata 计算出变量的p20 p80 这样的百分位数

≪ Previous: 用STATA做GMM指令_stata gmm_系统gmm stata 命令

Stata基本操作汇总——常用命令

关键词：stata常用命令、stata基本命令

help和search都是查找帮助文件的命令，它们之间的区别在于help用于查找精确的命令名，而search是模糊查找。如果你知道某个命令的名字，并且想知道它的具体使用方法，只须在stata的命令行窗口中输入help空格加上这个名字。回车后结果屏幕上就会显示出这个命令的帮助文件的全部内容。如果你想知道在stata下做某个估计或某种计算，而不知道具体该如何实现，就需要用search命令了。使用的方法和help类似，只须把准确的命令名改成某个关键词。回车后结果窗口会给出所有和这个关键词相关的帮助文件名和链接列表。在列表中寻找最相关的内容，点击后在弹出的查看窗口中会给出相关的帮助文件。耐心寻找，反复实验，通常可以较快地找到你需要的内容。

下面该正式处理数据了。我的处理数据经验是最好能用stata的do文件编辑器记下你做过的工作。因为很少有一项实证研究能够一次完成，所以，当你下次继续工作时。能够重复前面的工作是非常重要的。有时因为一些细小的不同，你会发现无法复制原先的结果了。这时如果有记录下以往工作的do文件将把你从地狱带到天堂。因为你不必一遍又一遍地试图重现做过的工作。在stata窗口上部的工具栏中有个孤立的小按钮，把鼠标放上去会出现“bring do-file editor to front”，点击它就会出现do文件编辑器。

为了使do文件能够顺利工作，一般需要编辑do文件的“头”和“尾”。这里给出我使用的“头”和“尾”。
capture clear       （清空内存中的数据）
capture log close    （关闭所有打开的日志文件）
set more off          （关闭more选项。如果打开该选项，那么结果分屏输出，即一次只输出一屏结果。你按空格键后再输出下一屏，直到全部输完。如果关闭则中间不停，一次全部输出。）
set matsize 4000    （设置矩阵的最大阶数。我用的是不是太大了？）
cd D:                （进入数据所在的盘符和文件夹。和dos的命令行很相似。）
log using （文件名）.log,replace （打开日志文件，并更新。日志文件将记录下所有文件运行后给出的结果，如果你修改了文件内容，replace选项可以将其更新为最近运行的结果。）
use （文件名）,clear  （打开数据文件。）
（文件内容）
log close          （关闭日志文件。）
exit,clear          （退出并清空内存中的数据。）

实证工作中往往接触的是原始数据。这些数据没有经过整理，有一些错漏和不统一的地方。比如，对某个变量的缺失观察值，有时会用点，有时会用-9，-99等来表示。回归时如果使用这些观察，往往得出非常错误的结果。还有，在不同的数据文件中，相同变量有时使用的变量名不同，会给合并数据造成麻烦。因此，拿到原始数据后，往往需要根据需要重新生成新的数据库，并且只使用这个新库处理数据。这部分工作不难，但是非常基础。因为如果在这里你不够小心，后面的事情往往会白做。

假设你清楚地知道所需的变量，现在要做的是检查数据、生成必要的数据并形成数据库供将来使用。检查数据的重要命令包括codebook，su，ta，des和list。其中，codebook提供的信息最全面，缺点是不能使用if条件限制范围，所以，有时还要用别的帮帮忙。su空格加变量名报告相应变量的非缺失的观察个数，均值，标准差，最小值和最大值。ta空格后面加一个（或两个）变量名是报告某个变量（或两个变量二维）的取值（不含缺失值）的频数，比率和按大小排列的累积比率。des后面可以加任意个变量名，只要数据中有。它报告变量的存储的类型，显示的格式和标签。标签中一般记录这个变量的定义和单位。list报告变量的观察值，可以用if或in来限制范围。出了ta命令，其他命令都可以后面不加任何变量名，报告的结果是正在使用的数据库中的所有变量的相应信息。说起来苍白无力，打开stata亲自实验一下吧。

顺带说点儿题外话。除了codebook之外，上述统计类的命令都属于 r 族命令（又称一般命令）。执行后都可以使用return list报告储存在r（）中的统计结果。最典型的r族命令当属summarize。它会把样本量、均值、标准差、方差、最小值、最大值、总和等统计信息储存起来。你在执行su之后，只需敲入return list就可以得到所有这些信息。其实，和一般命令的return命令类似，估计命令（又称 e族命令）也有ereturn命令，具有报告，储存信息的功能。在更复杂的编程中，比如对回归分解，计算一些程序中无法直接计算的统计量，这些功能更是必不可少。

检查数据时，先用codebook看一下它的值域和单位。如果有-9，-99这样的取值，查一下问卷中对缺失值的记录方法。确定它们是缺失值后，改为用点记录。命令是replace (变量名)=. if (变量名)==-9。再看一下用点记录的缺失值有多少，作为选用变量的一个依据。

得到可用的数据后，我会给没有标签的变量加上注解。或者统一标签；或者统一变量的命名规则。更改变量名的命令是rename （原变量名）空格（新变量名）。定义标签的命令是label var （变量名）空格”（标签内容）”。整齐划一的变量名有助于记忆，简明的标签有助于明确变量的单位等信息。

如果你需要使用通过原始变量派生出的新变量，那么就需要了解gen，egen和replace这三个命令。gen和replace常常在一起使用。它们的基本语法是gen (或replace)空格（变量名）＝（表达式）。二者的不同之处在于gen是生成新变量，replace是重新定义旧变量。

虚拟变量是我们常常需要用到的一类派生变量。如果你需要生成的虚拟变量个数不多，可以有两种方法生成。一种是简明方法：gen空格（变量名）＝（（限制条件））[这外面的小括弧是命令需要的，里面的小括弧不是命令需要的，只是说明“限制条件”并非命令]。如果某个观察满足限制条件，那么它的这个虚拟变量取值为1，否则为0。另一种要麻烦一点。就是

gen （变量名）＝1 if （取值为一限制条件）
replace（相同的变量名）＝0 if （取值为零的限制条件）

两个方法貌似一样，但有一个小小的区别。如果限制条件中使用的变量都没有任何缺失值，那么两种方法的结果一样。如果有缺失值，第一种方法会把是缺失值的观察的虚拟变量都定义为0。而第二种方法可以将虚拟变量的取值分为三种，一是等于1，二是等于0，三是等于缺失值。这样就避免了把本来信息不明的观察错误地纳入到回归中去。下次再讲如何方便地生成成百上千个虚拟变量。

大量的虚拟变量往往是根据某个已知变量的取值生成的。比如，在某个回归中希望控制每个观察所在的社区，即希望控制标记社区的虚拟变量。社区数目可能有成百上千个，如果用上次的所说的方法生成就需要重复成百上千次，这也太笨了。大量生成虚拟变量的命令如下；

ta （变量名）, gen(（变量名）)

第一个括号里的变量名是已知的变量，在上面的例子中是社区编码。后一个括号里的变量名是新生成的虚拟变量的共同前缀，后面跟数字表示不同的虚拟变量。如果我在这里填入d，那么，上述命令就会新生成d1，d2，等等，直到所有社区都有一个虚拟变量。

在回归中控制社区变量，只需简单地放入这些变量即可。一个麻烦是虚拟变量太多，怎么简单地加入呢？一个办法是用省略符号，d*表示所有d字母开头的变量，另一法是用破折号，d1-d150表示第一个到第150个社区虚拟变量（假设共有150个社区）。

还有一种方法可以在回归中直接控制虚拟变量，而无需真的去生成这些虚拟变量。使用命令areg可以做到，它的语法是

areg （被解释变量）（解释变量）, absorb（变量名）

absorb选项后面的变量名和前面讲的命令中第一个变量名相同。在上面的例子中即为社区编码。回归的结果和在reg中直接加入相应的虚拟变量相同。

生成变量的最后一招是egen。egen和gen都用于生成新变量，但egen的特点是它更强大的函数功能。gen可以支持一些函数，egen支持额外的函数。如果用gen搞不定，就得用egen想办法了。不过我比较懒，到现在为止只用用取平均、加和这些简单的函数。

的时候数据情况复杂一些，往往生成所需变量不是非常直接，就需要多几个过程。曾经碰到原始数据中记录日期有些怪异的格式。比如，1991年10月23日被记录为19911023。我想使用它年份和月份，并生成虚拟变量。下面是我的做法：

gen yr=int(date)
gen mo=int((data-yr*10000)/100)
ta yr, gen( yd)
ta mo, gen( md)

假设你已经生成了所有需要的变量，现在最重要的就是保存好你的工作。使用的命令是save空格（文件名），replace。和前面介绍的一样，replace选项将更新你对数据库的修改，所以一定要小心使用。最好另存一个新的数据库，如果把原始库改了又变不回去，就叫天不应叫地不灵了。

前面说的都是对单个数据库的简单操作，但有时我们需要改变数据的结构，或者抽取来自不同数据库的信息，因此需要更方便的命令。这一类命令中我用过的有：改变数据的纵横结构的命令 reshape，生成退化的数据库collapse，合并数据库的命令append和merge。

纵列（longitudinal）数据通常包括同一个行为者（agent）在不同时期的观察，所以处理这类数据常常需要把数据库从宽表变成长表，或者相反。所谓宽表是以每个行为者为一个观察，不同时期的变量都记录在这个观察下，例如，行为者是厂商，时期有2000、2001年，变量是雇佣人数和所在城市，假设雇佣人数在不同时期不同，所在城市则不变。宽表记录的格式是每个厂商是一个观察，没有时期变量，雇佣人数有两个变量，分别记录2000年和2001年的人数，所在城市只有一个变量。所谓长表是行为者和时期共同定义观察，在上面的例子中，每个厂商有两个观察，有时期变量，雇佣人数和所在城市都只有一个，它们和时期变量共同定义相应时期的变量取值。

在上面的例子下，把宽表变成长表的命令格式如下：

reshape long （雇佣人数的变量名）, i(（标记厂商的变量名）) j(（标记时期的变量名）)

因为所在城市不随时期变化，所以在转换格式时不用放在reshapelong后面，转换前后也不改变什么。相反地，如果把长表变成宽表则使用如下命令

reshape wide （雇佣人数的变量名）, i(（标记厂商的变量名）) j(（标记时期的变量名）)

唯一的区别是long换成了wide。

collapse的用处是计算某个数据库的一些统计量，再把它存为只含有这些统计量的数据库。用到这个命令的机会不多，我使用它是因为它可以计算中位数和从1到99的百分位数，这些统计量在常规的数据描述命令中没有。如果要计算中位数，其命令的语法如下

collapse (median) (（变量名）), by(（变量名）)

生成的新数据库中记录了第一个括号中的变量（可以是多个变量）的中位数。右面的by选项是根据某个变量分组计算中位数，没有这个选项则计算全部样本的中位数。

合并数据库有两种方式，一种是增加观察，另一种是增加变量。第一种用append，用在两个数据库的格式一样，但观察不一样，只需用append空格 using空格（文件名）就可以狗尾续貂了。简单明了，不会有什么错。另一种就不同了，需要格外小心。如果两个数据库中包含共同的观察，但是变量不同，希望从一个数据库中提取一些变量到另一个数据库中用merge。完整的命令如下：

use （文件名） [打开辅助数据库]
sort （变量名） [根据变量排序，这个变量是两个数据库共有的识别信息]
save （文件名）, replace [保存辅助数据库]
use （文件名） [打开主数据库]
sort （变量名） [对相同的变量排序]
merge （变量名） using （文件名）, keep(（变量名）)
[第一个变量名即为前面sort后面的变量名，文件名是辅助数据库的名字，后面的变量名是希望提取的变量名]
ta _merge [显示_merge的取值情况。_merge等于1的观察是仅主库有的，等于2的是仅辅助库有的，等于3是两个库都有的。]
drop if _merge==2 [删除仅仅来自辅助库的观察]
drop merge [删除_merge]
save （文件名）, replace [将合并后的文件保存，通常另存]

您好，“log using （文件名）.log,replace”这条命令中的（文件名）是什么意思？它跟File-Log-Begin，然后保存一个文件名有什么区别吗？log文件究竟是什么情况啊？还请明示，非常感谢！！！

解答：二者是一样的，你可以先采用点击式方式选择log begin ，屏幕提示的对应的命令就是log using。
help log 会详细说明它是做什么。你可以去查询下。
log allows you to make a full record of your Stata session. A log is a file containing what you type and Stata’s output. You may start multiple log files at the same time, and you may refer to them with a logname. If you do not specify a logname, Stata will use the name <unnamed>.

转载请注明：数据分析 » Stata基本操作汇总_Stata常用命令_stata基本命令

↧

如何让stata 计算出变量的p20 p80 这样的百分位数

December 10, 2016, 6:42 pm

≫ Next: 怎么查找变量中的某个值_stata培训

≪ Previous: Stata基本操作汇总_Stata常用命令_stata基本命令

如何让stata 计算出变量的p20 p80 这样的百分位数——stata 百分位数

sum varname, detail
或者
tabstat varname, s(p1 p5 p10 p25 p50 p75 p90 p95 p99)
只能在输出结果中得到给定的百分位数的统计值
如果想计算出某个变量或某些变量的 p15 p20 p80 p85 这样非标准化的百分位数统计值, 该如何操作呢?

解答；

xtile varname2=varname, nq(100)
sort varname2
duplicates list varname2 varname

多谢回复和指教, 我去试试看!
请问: 如下注释正确吗?
实话实说, 虽然我参考帮助文件对您给出的每条命令的含义大体弄明白了, 但是您这几条命令的思路还是没有琢磨出来, 可否请您再给具体解释一下, 多谢啦!

xtile varname2=varname, nq(100) /* 创建名为 varname2 的新变量, 按照百分位数对名为 varname 的变量进行分类,
nq(100) 选项表示百分位数的个数是100个, 即每1%作为一个分段点.
*/
sort varname2 // 将数据集中的obs 按照新变量 varname2 进行排序
duplicates list varname2 varname // 列出变量 varname2 和变量 varname 中重复的 obs

基本就是你理解的，最后一条命令主要考虑样本数大于100情况下，按百分比从低到高排列样本

_pctile length, nq(10)

转载请注明：数据分析 » 如何让stata 计算出变量的p20 p80 这样的百分位数

↧

怎么查找变量中的某个值_stata培训

December 10, 2016, 7:21 pm

≫ Next: 高技术产业的企业规模与技术创新_基于非线性面板平滑转换回归_PSTR_模型的分析

≪ Previous: 如何让stata 计算出变量的p20 p80 这样的百分位数

怎么查找变量中的某个值

最前面的id代表的是国家代码，例如“146714” 146是Switzerland，那么714就是RWANDA。和在一起表示Switzerland向RWANDA出口2,45千万美元，在1993年的时候。那么发过来“714146”正好相反。问题就是怎么在stata中找到id（146714和714146然后在吧他们的出口值进行相加).在线等候，

—

解答：

想法: 如果id的前3位=id的后3位, 并且 id的后3位=id的前3位, sum(export)

Assume cty1 and cty2 are numeric variables, try the following to see if it works:

gen a=cty1+cty2
gen b=abs(cty1-cty2)
egen group=group(a b)
save temp, replace
collapse (sum) export min(id) max(id), by(group)

Sorry, should be this:

gen a=cty1+cty2
gen b=abs(cty1-cty2)
egen group=group(a b)
save temp, replace
collapse (sum) export (min) id (max) id, by(group)

Most likely, your “id” is a string variable, try this first:

encode id, gen (id_n)

then change the last command as follows:

collapse (sum) export (min) id_min=id_n (max) id_max=id_n, by (group)

The following is a better one to convert the string “id” variable:

destring id, gen (id_n1)

then change the last command as follows:

collapse (sum) export (min) id_min=id_n1 (max) id_max=id_n1, by(group)

刚才有试了一下。出现了r(111) error . . . . . . . . . . . . . . . . . . . . . . . .  Return code 111
__________ not found;
no variables defined;
The variable does not exist.  You may have mistyped the
variable’s name.
variables out of order;
You specified a varlist containing varname1-varname2, yet
varname1 occurs after varname2.  Reverse the order of the
variables if you did not make some other typographical error.
Remember, varname1-varname2 is taken by Stata to mean varname1,
varname2, and all the variables in dataset order in between.
Type describe to see the order of the variables in your dataset.
__________ not found in using data;
You specified a varlist with merge, yet the variables on which
you wish to merge are not found in the using dataset, so the
merge is not possible.
__________ ambiguous abbreviation;
You typed an ambiguous abbreviation for a variable in your data.
The abbreviation could refer to more than one variable.  Use a
nonambiguous abbreviation or, if you intend all the variables
implied by the ambiguous abbreviation, append a `*’ to the end
of the abbreviation.

转载请注明：数据分析 » 怎么查找变量中的某个值_stata培训

↧

高技术产业的企业规模与技术创新_基于非线性面板平滑转换回归_PSTR_模型的分析

April 11, 2017, 9:05 pm

≫ Next: Stata中hausman检验与工具变量估计的实现

≪ Previous: 怎么查找变量中的某个值_stata培训

高技术产业的企业规模与技术创新_基于非线性面板平滑转换回归_PSTR_模型的分析

关键词：非线性回归、多元非线性回归模型

高技术产业的企业规模与技术创新— — —基于非线性面板平滑转换回归 ( PSTR) 模型的分析Firm Size and Technological Innovation of Chinese High – tech Industries:An Analysis Based on Panel Smooth Transition Regression Model牛泽东NIU Ze – dong张倩肖ZHANG Qian – xiao王WANG Wen文( 西安交通大学经济与金融学院西安710061)[摘要] 本文采用中国高技术产业 2003 -2007 年的企业层面数据，应用非线性面板平滑转换回归( PSTR) 模型对企业规模与技术创新之间的关系进行分析。研究发现，企业技术创新水平与企业规模的三种衡量指标之间都存在明显的先递增后递减的非线性关系，理论上存在一个最适创新的企业规模。对于目前中国高技术产业中的绝大多数企业来说，企业规模与技术创新之间更多地表现为一种非线性的递增关系，追求企业规模的合理扩张是促进企业技术创新水平提高的关键因素。

[关键词] 企业规模[中图分类号]技术创新[文献标识码]面板平滑转换回归模型[文章编号] 1000 – 1549 ( 2012) 10 – 0068 – 07F276. 44A

一、引言世界经济发展的历史经验表明，技术创新是推动一个国家 ( 地区) 经济发展的根本动力 ( 钱德勒，1999[1]) 。中国作为一个转型经济大国，随着社会主义市场经济体制的日趋完善，技术创新对经济增长的推动作用愈加明显。经济学家和政策制定者逐渐达成共识: 只有进行技术创新，才能提升中国产业的国际竞争力、实现经济增长方式的根本转变和产业结构的优化升级。在技术创新已成为中国经济发展的一项重要战略的大背景下，如何在经验层面探寻技术创新的决定因素，成为理论界和决策层关注的焦点。

二、企业规模与技术创新关系研究综述Schumpeter ( 1942)[2]以大企业研发实力和抗风险能力对技术创新的绝对作用为依据提出了 “企业规模越大越有利于技术创新” 的观点，指出 “大企业是整个经济进步的发动机”，称为 “熊彼特假说”。熊彼特的 “大企业创新优势论” 得到了 Galbraith ( 1952)[3]和 Villard ( 1958)[4]等人的支持。然而， Mans-field ( 1968)[5]却认为，大企业的垄断地位一旦形成，企业就会丧失技术创新的动力，企业规模过大还会降低效率，不利于技术进步。进一步地， Gellman ( 1976)[6]的研究表明，由于机制灵活以及面临的竞争压力较大，小企业技术创新效率明显高于大企业。与 Gellman 类似， Katrak ( 1994)[7]等人的研究也发现小企业承担了更大比例的创新份额。还有一些研究表明企业规模与技术创新之间的关系并不是线性的。Bound etal.( 1984)[8]运用美国 1976 年 1479 个企业的数据研究发现，企业规模和研发支出之间存在 “正 U型” 关系: 研发强度先随企业规模下降而后又上升，小企业和大企业比中等规模的企业具有更大的研发强度。 Scherer ( 1965a)[9]运用 1955 年世界 500 强企业中的 448 家企业数据为样本进行分析，结果发现企业规模与创新投入之间存在先减后增的 “倒 U 型” 关系。也就是说，存在一个阈值，当企业规模小于该阈值时，研发强度随规模的扩大而增加; 当企业规模大于该阈值时，研发强度随规模增加而下降。收稿日期: 2012 – 06 – 05作者简介: 牛泽东，男，山西长治人，西安交通大学经济与金融学院博士研究生，研究方向: 产业经济学; 张倩肖，女，陕西渭南人，西安交通大学经济与金融学院教授，博士生导师，研究方向: 产业经济学; 王文，女，陕西西安人，西安交通大学经济与金融学院博士研究生，研究方向: 产业经济学。86中央财经大学学报2012 年第 10 期
上述文献都是以发达国家为研究样本，在有关中国企业规模与技术创新的研究方面，周黎安和罗凯( 2005)[10]采用 1985 -1997 年的省际面板数据研究发现，只有在一定的企业治理结构下，企业规模与技术创新之间才呈现正相关。彭征波 ( 2006)[11]采用 2000 – 2003 年 5 个行业的数据研究了企业规模、市场集中度等与技术创新之间的关系，结果表明，企业规模、市场结构与技术创新之间不存在简单的线性关系，在不同的行业，它表现为 “正 U 型” 或 “倒 U 型” 曲线。朱恒鹏 ( 2006)[12]运用中国 2006 年 800 余家民营企业的调查数据，考察了企业规模、市场力量、行业特征和地区差异等因素对企业技术创新的影响，结果发现: 企业规模与民营企业研发强度之间呈较明显的 “倒 U 型” 变化关系。吴延兵 ( 2008)[13]运用中国 2002 年 4 位数制造业的横截面数据，从创新产出的角度对 “熊彼特假说” 进行了验证，结果表明对几乎所有的 4 位数制造业而言，企业规模与创新产出之间表现为一种非线性递增关系。综合以上理论和经验研究的结果可以发现，企业规模和技术创新之间存在正相关、负相关、 “正 U型” 和 “倒 U 型” 四种变化关系。虽然由于数据样本和计量方法选择的不同以及企业规模和技术创新的衡量指标选择的差异会导致研究结论的不一致 ( 吴延兵， 2008[13]) ，但目前理论界比较一致的看法是，由于大企业和小企业在技术创新方面各具优劣，企业规模与技术创新之间的变化并非简单的线性关系可以刻画，二者间的关系应是非线性的。同时我们发现，目前对于中国企业规模与技术创新之间关系的研究主要是以分省或者分行业数据为样本，从企业层面对二者之间关系的研究比较缺乏。另外，已有研究对非线性关系的刻画主要是通过在模型中引入企业规模的平方项 (彭征波， 2006[11]; 朱恒鹏， 2006[12 ]; 吴延兵，2008[13]) 或通过建立企业规模的 3 次方程式 ( Scherer， 1965a[9]) 来进行的，这种方式简单原始，无法精确刻画企业规模与技术创新之间复杂的变动关系。因此，本文采用中国高技术产业的企业层面数据，运用非线性面板平滑转换回归 ( PSTR) 模型对企业规模与技术创新之间可能存在的非线性关系进行分析，以揭示二者之间复杂而微妙的变化规律。

三、模型、变量和数据( 一) 模型的构建1. 非线性面板平滑转换回归模型。本文采用 Gonzalez etal.( PSTR) 模型对企业规模与技术创新之间关系进行考察。包含两机制 ( Regime) 的基本 PSTR 模型形式如下:( 2005)[14 ]提出的非线性面板平滑转换回归yit= μi+ β’0xit+ β’1xitG ( sit; γ， c)+ uitG ( sit; γ， c)= ( 1 + exp (- γ∏mk = 1( sit- ck) ) )- 1， γ ＞0， c1≤c2≤…≤cm( 1)其中， yit为被解释变量， xit= ( w’it， z’it) ‘为解释变量， wit= ( yit – 1， yit – 2， …， yit – p) ‘， zit= ( zit1，zit2， …， zitl) ‘。 p 为滞后阶数， l 为外生变量的个数。 β0和 β1依次为线性部分和非线性部分的参数向量。μi为截面固定效应， uit为残差项。转换函数 G ( sit; γ， c) 通常采用逻辑函数形式，转换变量 sit可以是xit向量的组成部分、组成部分的函数或一个不包含在 xit内的外生变量。 γ 为平滑参数，表示从一个机制转移到另一个机制的转换速度或调整的平滑性; c 为转换发生的位置参数，即机制转换发生的临界值，决定了模型动态变化发生的位置。在转换函数 G ( · ) 中， m 通常取 1 或 2。 m = 1 时，转换函数称为LSTR1 型，关于 sit单调递增。当 G ( · )换函数值在 0 和 1 之间平滑转换，从而模型也在两机制之间平滑转换。位置参数 c 代表从低机制向高机= 0 时，模型称为低机制; 当 G ( · )= 1 时，称为高机制。转制转换的过渡点。 m =2 时，转换函数称为 LSTR2 型，关于 sit非单调。 G ( · )= 1 的极限状态称为外机制; 在 ( c1+ c2) /2 处， G ( · ) 达到最小值，对应机制为中间机制。而且，线性固定效应模型和面板门限回归 ( PTR) 模型均为 PSTR 模型的特殊情形。

2. 计量模型。除企业规模外，还有诸多其他因素会对企业的技术创新活动产生影响。根据已有相关文献，这些因素主要包括: ( 1) 产权结构。作为转型经济国家，产权结构对中国企业创新行为有重要影响。理论上，产权结构会影响企业激励机制和经理行为的长期性，导致国有和非国有企业具有不同的创新激励。本文将产权结构变量 ( OWN) 纳入分析模型，以控制不同性质的产权结构对技术创新活动的影96中央财经大学学报2012 年第 10 期
响。 ( 2) 技术机会。不同产业所具有的特性和产品特征决定了该产业的创新程度，已有文献大都采用产业变量衡量技术机会 ( 吴延兵， 2008[13]) ，本文也采取同样做法，在模型中引入产业虚拟变量 ( IND) 来控制产业因素对企业技术创新活动的影响①。

( 3) 地区差异。中国高技术产业在各地区发展不平衡，技术创新活动也是如此。为此，我们在回归分析中加入地区虚拟变量 ( REG) 。我们在 ( 1) 式的基本 PSTR 模型的基础上，综合考虑以上因素，同时还在解释变量中加入因变量的滞后项以控制企业技术创新水平的滞后效应，最终得到如下的 PSTR 模型:INNit= μi+ β01INNit – 1+ β02SIZEit+ β03OWNit+ β04INDit+ β05REGit+ β1SIZEitG ( SIZEit; γ， c)+ εit( 2)其中， INN 表示企业的技术创新水平， INNit – 1为其一期滞后; SIZE 为企业规模; OWN、 IND、 REG分别代表产权结构虚拟变量、产业虚拟变量、地区虚拟变量。 i 代表企业， t 代表时间。 εit为随机误差项。在 ( 2) 式中，企业规模变量 SIZE 既是解释变量，也是转换变量。将 ( 2) 式对企业规模变量 SIZE求导，可得 SIZE 的回归系数为:β02+ β1G( · ) + β1γSIZEit( G( · ) – G( · )2)，当模型形式为 LSTR1时β02+ β1G( · ) + β1γSIZEit( 2SIZEit- c1- c2) ( G( · ) – G( · )2)，当模型形式为 LSTR2{( 二) 变量的度量1. 技术创新水平。已有文献大多采用两类指标来衡量技术创新水平: 一类是从创新投入的角度，采用的dINNit/dSIZEit=时( 3)指标主要包括研发经费支出、研发人员数等; 另一类是从创新产出的角度，采用的指标包括专利数量、新产品产值等。创新投入只能衡量技术创新活动消耗的资源，不能测度创新活动的实际效果; 以专利数量衡量创新也存在一定问题，因为并不是所有的新技术都会申请专利。采用新产品产值衡量创新则可以克服这些缺陷，而且它在一定程度上考虑了产品创新的市场价值和重要程度 ( Acs & Audretsch， 1991[15 ])。由于不同企业之间新产品产值差异较大，我们最终选择新产品产值占总产值的比重作为企业技术创新水平的衡量指标。

2. 企业规模。企业规模的衡量，通常采用销售收入、总资产或员工人数来表示 ( 朱恒鹏， 2006[12 ]) 。这三个指标中，由于销售收入相对于生产要素构成来说处于中立地位，而且企业 R&D 预算往往以销售收入作为依据，因此被认为是更好地衡量企业规模的指标 ( Scherer， 1965b[16 ]) 。为验证企业规模与技术创新之间非线性关系的稳定性，本文在回归分析中同时采用销售收入、总资产、从业人数三个指标作为企业规模的代理变量，分别用 SIZE1、 SIZE2、 SIZE3表示。

3. 产权结构。我们采用所有制结构的虚拟变量来表示产权结构。由于所有制结构分为国有企业( 110) 、集体企业 ( 120) 、股份合作企业 ( 130) 、联营企业 ( 140) 、有限责任公司 ( 150) 、股份有限公司 ( 160) 、私营企业 ( 170) 、其他内资企业 ( 190) 、港澳台投资企业 ( 200) 、外商投资企业 ( 300) 共10 种所有制类型，因此，本文以其他内资企业 ( 190) 为参照系，设置 9 个虚拟变量。

4. 产业虚拟变量。我们选取中国高技术产业作为研究对象，剔除数据缺失严重或服务于国防建设的特殊行业后，剩余样本企业覆盖 13 个行业②。我们以化学药品制造为参考，设置 12 个虚拟变量。

5. 地区虚拟变量。我们以北京市为参考，设置 30 个地区虚拟变量。( 三) 数据来源考虑到数据的可得性，本文以 2003 -2007 年中国高技术产业企业层面数据作为分析样本，这些数据来自2003 -2007 年的《中国工业企业数据库》。

由于破产、兼并、法人代码变化等原因，每年都有一些企业进入或退出高技术产业。剔除新企业的进入与旧企业的退出，样本期间内始终存在的企业共有 4588 家。在删除了总07中央财经大学学报2012 年第 10 期①②对企业层面数据来说，行业集中度的三个衡量指标 ( 4 厂商集中度、 8 厂商集中度和赫芬达指数) 皆无法计算，而产业特性和产品特性在一定程度上决定了该产业的竞争程度，因此本文在回归分析中引入产业虚拟变量也可以看成是对市场结构变量的一种控制。13 个行业包括: 化学药品制造、中药材及中成药加工、生物制品制造、通信设备制造、电子器件制造、电子元件制造、家用视听设备制造、其他电子设备制造、电子计算机整机制造、电子计算机外部设备制造、办公设备制造、医疗设备及器械制造、仪器仪表制造。
产值为 0 和企业规模为 0 的无效样本后，最终得到的样本包括4529 家企业，共计 22645 个观测点。四、回归结果与分析本文采用 R2. 11. 1 计量分析软件。首先要检验模型是否存在非线性，构建辅助回归: yit= μi+ β* ‘* ‘1xitsit+ … + β* ‘0xit+β3xits3it，非线性检验0 = … = β*的原假设为: H0∶H0被拒绝表明存在非线性关系。非β*3 = 0。线性关系确定后，再根据最强拒绝原则来确定转换函数的具体形式。依次检验原假设: H03∶ β*换函数形式为 LSTR2。反之，则选取 m =1，转换函数形式为 LSTR1。本文通过构造 F 统计量对线性原假设进行检验①， H0、 H03、 H02、 H01对应的 F 统计量分别为 F、 F3、 F2和 F1。

根据上述检验过程，分别以 SIZE1、SIZE2、 SIZE3作为企业规模的衡量指标对企业规模与技术创新之间的关系进行非线性检验，结果见表1。表1 的检验结果显示，模型 1 -3 分别在 1%、 5%、 1%表 1模型的非线性检验F3模型转换变量FF2F1模型形式模型 1SIZE14. 459( 0. 004)7. 751( 0. 005)5. 283( 0. 022)0. 342( 0. 556)LSTR1模型 2SIZE22. 684( 0. 045)0. 797( 0. 372)3. 149( 0. 076)3. 876( 0. 049)模型 3SIZE39. 899( 0. 00000162)1. 117( 0. 291)24. 891( 0. 000000614)3. 684( 0. 055)注: 括号内为对应的 p 值; 模型 1 – 3 分别对应以 SIZE1、 SIZE2、 SIZE3作为企业规模衡量指标的 PSTR 模型。3=0 和 H01∶ β*3=0、 H02∶ β*2| β*1 =0 | β*3 = β*2=0。若最强拒绝 H02，则选取 m =2，转的水平上显著拒绝了线性模型的原假设，表明企业规模与技术创新之间存在明显的非线性关系，本文采用 PSTR 模型是合适的。模型1 中 F1对应的 p 值最小，模型2 中 F1对应的 p值最小，根据前文可知这 2 个模型中转换函数的形式应采用LSTR1; 模型 3 中 F2对应的 p 值最小，转换函数的形式应为LSTR2。本文采用网格搜索法确定平滑参数 γ 和位置参数 c的初始值，表2 显示，通过网格搜索所得到的 γ、 c 的初始值均落在了相应的构造区间之内。初始值确定后，采用非线性最小二乘法 ( NLS) 估计模型 1 -3 中的参数，估计结果见表 3。PSTR 模型 1 -3 的估计结果表 2 平滑参数、位置参数初始值的选择模型 1模型 2模型 3RSS229328822936442285719γ5. 04. 01. 0区间( 0. 0， 10. 0)( 0. 0， 10. 0)( 0. 0， 10. 0)c117. 04. 05. 0c218. 0区间( 0. 0， 19. 0)( 0. 0， 8. 0)( 0. 0， 19. 0)表 3模型 1模型 2模型 3INN- 10. 2034 ( 6. 153)* * *0. 2028 ( 4. 181)* * *0. 2035 ( 5. 376)* *SIZE11. 0619 ( 1. 994)* *SIZE25. 8314 ( 1. 876)*SIZE315. 2162 ( 2. 435)* *- 18. 0234 ( 1. 692)*SIZE*G ( · )- 2. 3953 ( 1. 803)*- 7. 2047 ( 1. 978)* *4. 23 ( 1. 693)*γ4. 81 ( 1. 325)17. 69 ( 1. 819)*0. 34 ( 0. 579)5. 29 ( 1. 754)*c13. 95 ( 2. 128)* *c218. 78 ( 2. 106)* *虚拟变量OWNyesyesyesINDyesyesyesREGyesyesyesobs181161811618116注: 括号内为 t 统计量，* * *，* *，*分别代表变量通过了 1% 、 5% 和 10% 水平的显著性检验; 创新变量带有下标 “ – 1”，表示滞后一期;yes 表示虚拟变量已控制，因篇幅所限，没有列出虚拟变量的估计系数。从表 3 中可以看出，模型 1 -3 中，被解释变量滞后项的系数为正且在统计上显著异于零，表明在中国17中央财经大学学报2012 年第 10 期①戴维森和麦金农指出，当约束模型和无约束模型均为线性回归模型时， LM 统计量并不包含比 F 统计量更多的信息 ( 古扎拉蒂， 2005 [17]) 。对于线性回归模型的检验， F 检验已足以胜任。
高技术产业中，企业的技术创新水平具有明显的累积效应。本文中，我们主要研究在控制了产权结构、产业以及地区虚拟变量的影响后，企业规模的三种衡量指标对企业技术创新水平的影响，下面逐一进行分析。1. SIZE1对企业技术创新的影响。表 3 的估计结果显示，模型 1 的线性部分是显著的， SIZE1的系数为1. 0619; 非线性部分 SIZE1* G ( · ) 的系数显著为负 (-2. 3953) 。表明随着 SIZE1的扩大，企业规模对技术创新的影响存在由正效应向负效应的转变。平滑参数 γ 为 4. 81，表明模型转换的速度较慢，不同机制之间的转换是平滑的。模型 1 只有一个位置参数，引发企业规模对技术创新的影响发生由正向负转变的 SIZE1的临界水平为 17. 69 ( 百亿元) 。图 1 绘制了 SIZE1系数的变动曲线。可以看出，当 SIZE1不超过 15. 90 时，系数变动很小，企业规模对技术创新的影响基本保持线性; 当 SIZE1超过15. 90 时，系数迅速由正转负，企业规模与技术创新之间的关系也由近似线性转化为明显的非线性; 在位置参数 17. 69 处， SIZE1系数降至最低点 (-51. 0) 。为准确反映企业规模与技术创新之间的关系，图 2 绘制了排除其他因素影响后的技术创新与企业规模 SIZE1的变动曲线。图 2 显示，对中国高技术产业而言，随着 SIZE1的不断扩大，企业规模与技术创新之间呈现出明显的不规则 “倒 V 型” 关系。经计算可知，当 SIZE1为 16. 62 时，系数为零，此时企业的技术创新水平达到最大值。在我们的样本中，企业规模达到或超过最值点 16. 62 的样本点只有一个，因此，虽然回归结果表明企业规模 SIZE1与技术创新之间呈现 “倒 V型” 关系，但对本文的样本企业而言，二者之间主要呈现出一种非线性递增关系，这与朱恒鹏 ( 2006)[12]采用民营企业面板数据的研究以及吴延兵( 2008)[13]采用中国四位数制造产业数据的研究得出的结论基本一致。与他们不同的是，本文研究得出的企业规模 SIZE1与技术创新之间的关系是 “倒 V型” 而非 “倒 U 型”。图 1SIZE1系数的变动趋势图 2技术创新与企业规模 SIZE1的关系2. SIZE2对企业技术创新的影响。模型 2 的估计结果显示，线性部分中 SIZE2的系数在 10% 的水平上显著为正 ( 5. 8314) ; 非线性部分 SIZE2* G ( · ) 的系数也显著为负 (- 2. 3953) 。这表明与 SIZE1的回归结果一致， SIZE2对技术创新的影响同样存在由正效应向负效应的转变。平滑参数 γ 为 4. 23，模型在不同机制之间的转换缓慢而平滑。模型 2 只有一个位置参数，引发企业规模对技术创新的效应由正向负转变的 SIZE2的临界水平为 3. 95 ( 百亿元) 。从图 3 中 SIZE2系数的变动曲线可以看出， SIZE2在低于 2. 20 或高于 5. 70 时，系数的变动非常小，企业规模与技术创新之间都基本保持线性关系。当 SIZE2在 2. 20 -5. 70 之间时，系数会经历一个先降后升的过程: 首先从 5. 77 迅速降至 – 27. 7 ( 在位置参数3. 95 处， SIZE2系数最低) ，然后又逐渐回升至 – 1. 46。在这段区间内， SIZE2系数逐渐由正转负，企业规模与技术创新之间的关系表现为明显的非线性关系。在排除其他因素影响的同时，我们绘制了中国高技术产业技术创新与企业规模 SIZE2的变动曲线 ( 图 4) 。与 SIZE1的结论类似， SIZE2与技术创新之间也呈现出不规则的 “倒 V 型” 关系，但是曲线更为平滑。经计算可知，当 SIZE2为 3. 24 时，系数为零，企业的技术创新水平达到最大值。此时，企业若继续扩大规模，将会导致技术创新水平的下降。在我们的样本企业中，企业规模达到或超过最值点 3. 24 的样本点仅有 9 个。由此可见，虽然回归结果表明企业27中央财经大学学报2012 年第 10 期
规模 SIZE2与技术创新之间呈现 “倒 V 型” 关系，但对本文中的样本企业来说，二者之间仍主要呈现出一种非线性的递增关系，这与 SIZE1的分析结论是一致的。图 3SIZE2系数的变动趋势图 4技术创新与企业规模 SIZE2的关系3. SIZE3对企业技术创新的影响。模型 3 的估计结果显示，线性部分中 SIZE3的系数为正 ( 15. 2162) ，且在 5%的水平上显著; 非线性部分 SIZE3* G ( · ) 的系数在 10% 的水平上显著为负 (-18. 0234) 。平滑参数 γ 为 0. 34，表明模型机制转换的速度非常缓慢。模型 3 包含 2 个位置参数: c1= 5. 29， c2= 18. 78，在企业从业人数分别达到 5. 29 ( 万人) 或 18. 78 ( 万人) 的临界水平时，企业规模对技术创新的效应将会发生转变。从图 5 中 SIZE3系数的变动曲线可以看出，这种转变首先是由负效应转为正效应，再转为负效应。图 5 显示，当 SIZE3低于 3. 70 或介于 7. 30 -16. 60 之间时，系数的变动都非常缓慢，企业规模与技术创新之间基本保持线性关系。我们从图 5 还可以发现，当 SIZE3介于 3. 70 -7. 30 之间时，系数会逐渐由负转正:首先从 -2. 56 迅速上升至 102. 9 ( SIZE3系数的最高点在位置参数 5. 29 处得到) ，然后又逐渐降低至 15. 57;当 SIZE3高于 16. 60 时，系数又会迅速地由正转负 ( 在位置参数 18. 78 处， SIZE3系数最低) 。在这两个区间内，企业规模与技术创新之间皆呈现出明显的非线性关系。图 5SIZE3系数的变动趋势图 6技术创新与企业规模 SIZE3的关系排除其他因素的影响后，我们在图 6 中绘制了中国高技术产业技术创新与企业规模 SIZE3的变动曲线。图 6 显示，企业规模 SIZE3与技术创新之间呈现出明显的不规则 “倒 U 型” 关系。经计算可知，当SIZE3为 17. 66 时，系数为零，企业的技术创新水平达到最大值。但是，由于在本文所用样本中，仅有 1个样本点的 SIZE3超过最值点 17. 66，因此对于几乎所有的样本企业来说，虽然回归结果表明企业规模SIZE3与技术创新之间呈现 “倒 U 型” 关系，二者之间仍主要表现为一种非线性的先减后增的变化关系。根据 Gonzalez etal.则，并参照表 1 中非线性检验的结果，可以判断在 3 个模型中，模型 3 是最优的，因而在所考察的企业( 2005)[14]提出的模型选择准则，最强拒绝线性原假设的模型为最优。依据该准37中央财经大学学报2012 年第 10 期
规模的三个衡量指标中， SIZE3对企业技术创新的影响最为显著。与销售收入、总资产相比，企业的从业人数规模对中国高技术产业技术创新能力提升的制约作用更为明显。此外，对于 PSTR 模型实证结果评价的各项检验如: 参数一致性检验、无剩余异质性检验、无误差自相关检验等均表现出了良好的合意性，由于篇幅所限不再赘述。五、结论本文采用中国高技术产业 2003 – 2007 年的企业层面数据，应用非线性面板平滑转换回归 ( PSTR)模型对企业规模与技术创新之间的非线性关系进行了考察。考虑到结论的稳健性，本文在回归分析中同时采用销售收入、总资产和从业人数作为企业规模的代理变量。结果显示，企业技术创新与企业规模的三种衡量指标之间都存在明显的非线性关系。其中，技术创新与企业销售收入规模、总资产规模之间皆呈现出不规则的 “倒 V 型” 关系; 与企业从业人数规模之间呈现出不规则的 “倒 U 型” 关系。虽然三个指标所反映的企业规模对技术创新影响的状态转化效应不完全相同，但是企业规模与技术创新之间都存在明显的先递增后递减的非线性关系。因此，存在一个最适创新的企业规模，一旦企业规模超过该最适水平，由于组织官僚化、研发动机减弱等原因，企业的技术创新就会受到损害。从三种衡量指标来看，最适创新的企业规模分别为: 销售收入达到 16. 62 ( 百亿元) ; 总资产达到 3. 24 ( 百亿元) ; 从业人数达到 17. 66 ( 万人) 。从中国高技术产业的现实来看，达到如此规模条件的企业寥寥无几。因此，对于目前中国高技术产业中的绝大多数企业来说，企业规模与技术创新之间更多表现为一种非线性递增关系，追求企业规模的合理扩张仍是促进创新水平提高的关键因素。参考文献[1] 钱德勒 . 企业规模经济与范围经济— — —工业资本主义的原动力 [M] . 北京: 中国社会科学出版社， 1999.[2] Schumpeter J. A. Capitalism， Socialism and Democracy [M] . NewYork: Harper & Row， 1942.[3] Galbraith J. K. American Capitalism: The Concept of Countervailing Power [M] . Boston: Houghton Mifflin， 1952: 119 – 121.[4] Villard H. H. Competition， Oligopoly， and Research [J] . Journal of Political Economy， 1958， 66 ( 6) : 483 – 497.[5] Mansfield E. The Economics of Technological Change [M] . New York: Norton， 1968.[6] Gellman Research Associates ( 1976) . Indicators of international trends in technological innovation. Prepared for the National Science Foun-dation.[7] Katrak H. Imports of Technology， Enterprise Size and R&D – based Production in a Newly Industrializing Country: The Evidence from IndianEnterprises [J] . World Development， 1994， 22 ( 10) : 1599 – 1608.[8] Bound J. ， Cummins C. ， Griliches Z. ， Hall B. H. ， Jaffe A. ” Who Does R&D and Who Patents?” ， in Griliches Z. ( ed. ) R&D， Patentsand Productivity [M] . Chicago: University of Chicago Press， 1984.[9] Scherer F. M. Size of Firm， Oligopoly， and Research: A Comment [J] . Canadian Journal of Economics and Political Science， 1965a， 31( 2) : 256 – 266.[10] 周黎安，罗凯 . 企业规模与创新: 来自中国省级水平的经验证据 [J] . 经济学 ( 季刊) ， 2005， 4 ( 3) : 623 – 638.[11] 彭征波 . 企业规模、市场结构与创新— — —来自不同行业的经验证据 [J] . 中南财经政法大学学报， 2007 ( 2) : 106 – 111.[12] 朱恒鹏 . 企业规模、市场力量与民营企业创新行为 [J] . 世界经济， 2006 ( 12) : 41 – 52.[13] 吴延兵 . 创新的决定因素— — —基于中国制造业的实证研究 [J] . 世界经济文汇， 2008 ( 2) : 46 – 58.[14] Gonzalez A. ， Terasvirta T. ， van Dijk D. Panel Smooth Transition Regression Models [R] . Quantitative Finance Research Centure， Re-search paper 165， Augest， 2005， ISSN 1441 – 8010.[15] Acs Z. J. ， Audretsch D. B. Innovation and Technological Change: An International Comparison [M]. Ann Arbor， MI: University ofMichigan Press， 1991.[16] Scherer F. M. Firm Size， Market Structure， Opportunity and the Output of Patented Inventions [J]. American Economic Review，1965b， 55 ( 5) : 1097 – 1125.[17] 古扎拉蒂 . 计量经济学基础 [M] . 北京: 中国人民大学出版社， 2005.( 责任编辑: 尹贤淑)47中央财经大学学报2012 年第 10 期

转载请注明：数据分析 » 高技术产业的企业规模与技术创新_基于非线性面板平滑转换回归_PSTR_模型的分析

↧

Stata中hausman检验与工具变量估计的实现

April 23, 2017, 8:10 pm

≫ Next: stata自相关和多重共线性问题_自相关和多重共线性

≪ Previous: 高技术产业的企业规模与技术创新_基于非线性面板平滑转换回归_PSTR_模型的分析

Stata中hausman检验与工具变量估计的实现

关键词：stata默认DF检验是滞后几阶、stata adf检验滞后期、stata滞后一期命令、stata 滞后一期、stata生成滞后变量

Hausman检验是检验内生性的最常用的方法。它是通过比较一致估计量与有效估计量的Wald统计量。
命令格式为：

.hausman name-constistent [name-efficent] [,options]

其中，name-cosistent指一致估计的结果， name-efficent 指有效估计的结果。注意，一致、有效估计量的先后顺序不能改变。

Option选项：

constant 计算检验统计量将常数也包括在内，默认值为排除常数
allegs 利用所有方程进行检验，默认只对第一个方程进行检验
skipeqs(eqlist) eqlist只能以方程名称而不能以方程序号表示
equation(matchlist) 比较设定的方程。
force 即使假设条件不满足仍进行检验
df(#) 默认值为一致估计与有效估计的协方差矩阵的差的估计
sigmamore 协方差矩阵采用有效估计量的协方差矩阵
sigmaless 协方差矩阵采用一致估计量的协方差矩阵
tconsistent(string) 一致估计量的标题
tefficient(string) 有效估计量的标题

工具变量估计
命令格式：
.ivregress esitimator depvar [varlist1] [varlist2=varlist_iv] [if] [in] [weight][,options]
其中，estimator包括2sls,gmm,liml三种。varlist1为模型中的外生变量，varlist2为模型中的内生变量，varlist_iv为模型中的工具变量。

Nonconstant 不包括常数项
Hascons 用户自己设定常数项
CMM 选项：
wmatrix(wmtype) robust,cluster clustvar,hac kernel, unadjusted
center 权数矩阵采用中心矩
igmm 采用迭代GMM估计
eps(#) 参数收敛标准。默认值为eps（le-6）
weps(#) 权数矩阵的收敛标准。默认值为w eps(le-6)
Vce(vcetype) unajusted,robust,cluster clustvar,bootstrap,jackknife,hac kernel
level(#)置信区间
First 输出第一阶段的估计结果
Small 小样本下的自由度调整

.estat firststage [,all forcenonrobust]

该命令给出第一阶段的估计结果以及各种统计量，包括排除外生变量的相关性检验。All选项给出所有的拟合优度统计量。如果模型存在多个内生变量，则stata给出R2、偏R2、调整的R2 、F统计量；如果模型存在多个内生变量，则stata给出Shea偏R2和调整的偏R2。
forcenonrobust给出最小特征值统计量及其临界值，即使采用稳健估计（这一检验的假设条件是误差项为独立正态分布）。

estat overid[,lag(#) forceweights forcenonrobust]
该命令给出了过度识别约束检验。如果使用2sls估计估计，则Stata给Sargan’s(1958)和Basman’s(1960)卡方统计量，这也是Wooldridge’(1995）稳健得分检验。如果采用liml估计方法，则stata给出Anderson and Rubin’s(1950) 卡方统计量以及Basmann F统计量；如果采用GMM估计，则stata给出hansen’s(1982)J统计量。Lags(#)用于计算得分检验的HAC（异方差自相关一致）统计量的过程中进行去噪时设定滞后阶数。如果设定lag(0),则表示不进行去噪处理。默认选择为lag(1)。这一选择仅使用于2sls估计方法和设定vce(hac)选项情况。
Forceweight 表示即使采用aweights,pweights或iweights也进行检验。Stata仅对于fweights的情况进行检验，其他权数所得到临界值可能不准确。

Forcenonrobust 指在2sls或LIML估计中即使采用稳健标准差也进行Sargan and Basmann检验（这一检验的假设的假设条件是误差项为独立正态分布）。

例子：

log(wage)=a+b*educ+c*exper+d*expersq+u

怀疑模型教育（educ）具有内生性问题，利用父母接受教育的年数（fatheduc,motheduc）作educ的工具变量估计上述模型。
（1）利用2SLS估计模型
.ivregress 2sls lwage exper expersq (educ=fatheduc motheduc),first

第一阶段回归结果为：
educhat=9.1+0.19fatheduc+0.16motheduc+0.05exper
             (21.34)     (5.62)       (4.39)       (1.12)
        – 0.001expersq
            (-0.84)
第二阶段的估计结果为：
lwagehat=0.05+0.06educ+0.04exper-0.001expersq
             (0.12)    (1.95)      (5.29)       (-2.24)

（2）检验educ的内生性
.quietly ivreg iwage exper expersq {educ=fatheduc motheduc}
.est store IV_reg
.quietly regress lwage exper expersq educ
.est store LS_reg
.hausman IV_reg LS_reg
可以得到hausman估计量=2.7，P值=0.44。接受原假设，即educ是外生的。

(3)进行过度识别的约束检验
.estat overid
可得Sargan统计量=0.38，P值=0.54接受原假设。

转载请注明：数据分析 » Stata中hausman检验与工具变量估计的实现

↧

stata自相关和多重共线性问题_自相关和多重共线性

April 24, 2017, 5:13 pm

≫ Next: 使用Stata进行Logistic回归分析实例分析_stata中logistic回归

≪ Previous: Stata中hausman检验与工具变量估计的实现

stata自相关和多重共线性问题

1). 自相关

Autocorrelation

Iterated GLS with autocorrelation does not produce the maximum likehood estimates, so we cannot use the likelihood-ratio test procedure, as with heteroskedasticity. However, Wooldridge (2002, 282–283) derives a simple test for autocorrelation in panel-data models. Drukker (2003) provides simulation results showing that the test has good size and power properties in reasonably sized samples.

There is a user-written program, called xtserial, written by David Drukker to perform this test in Stata. To install this user-written program, type

. findit xtserial . net sj 3-2 st0039 (or click on st0039) . net install st0039 (or click on click here to install)

To use xtserial, you simply specify the dependent and independent variables:

. xtserial depvar indepvars

A significant test statistic indicates the presence of serial correlation.

2). 多重共线性

Multicolinearity

Stata provides a built-in measure of multicolinearity, the variance inflation factor (VIF). To use the VIF, first estimate the regression equation, then type the command vif. below is an example:

reg y x5-x7
vif

As a rule of thumb, a variable whose VIF values are greater than 10 may merit further investigation. Tolerance, defined as 1/VIF, is used by many researchers to check on the degree of collinearity. A tolerance value lower than 0.1 is comparable to a VIF of 10. It means that the variable could be considered as a linear combination of other independent variables.

转载请注明：数据分析 » stata自相关和多重共线性问题_自相关和多重共线性

↧

使用Stata进行Logistic回归分析实例分析_stata中logistic回归

April 26, 2017, 8:21 pm

≫ Next: 数值型字符型转换，destring tostring _stata

≪ Previous: stata自相关和多重共线性问题_自相关和多重共线性

关键词：在stata中如何进行逐步回归、 logistic回归分析实例、stata logistic回归、stata做logistic回归

. use “C:\Stata12\2_data\002-胰腺炎.dta”, clear

. sum

   Variable |       Obs        Mean    Std. Dev.       Min       Max
————-+——————————————————–
         id |       113    785515.7    53014.54     605046    833486
        sex |       113    .5486726    .4998419          0          1
        age |       113    59.06195    18.07933         17         90
        ldh |       113    433.5434    448.6421        2.9      2272
         cr |       113    106.3265     100.756         21        775
————-+——————————————————–
        abl |       113    34.45221    6.624105       17.9      51.2
       mods |       113    .2477876    .4336509          0          1
        pre |       113    .2477879    .3315311     .00382     .99995

. list

    +————————————————————+
    |     id   sex   age      ldh      cr    abl   mods      pre |
    |————————————————————|
1. | 828966     0    65    299.3    47.1   34.4      1    .0614 |
2. | 769948     1    40     2036   395.1   25.9      1   .99972 |
3. | 691896     1    78      881    89.4   39.1      1   .17659 |
4. | 679641     1    79     2250   360.2   26.2      1   .99972 |
5. | 766834     1    79      300     775   22.4      1   .99995 |
    |————————————————————|
6. | 746872     1    76      410     177   21.1      1   .86829 |
7. | 711428     1    58   2047.4     276   27.1      1   .99814 |
8. | 699401     0    62      633   235.4   24.7      1   .93165 |
9. | 789971     0    79      225      71   30.2      1    .1432 |
10. | 788979     1    21     1149      37     21      1   .85097 |
    |————————————————————|
11. | 780270     1    59      881     310     34      1   .92918 |
12. | 775535     0    77      500     318     28      1   .94542 |
13. | 650668     1    57     1248     180     29      1   .92791 |
14. | 697919     1    84      345     210   32.7      1   .51026 |
15. | 699401     0    62      633     235   24.7      1   .93128 |
    |————————————————————|
16. | 699767     0    76    460.5     157     26      1   .69305 |
17. | 728235     0    77      359     159   35.4      1   .23909 |
18. | 734791     0    84      305     138   17.9      1   .84005 |
19. | 738421     1    56     1487     306     27      1   .99519 |
20. | 746872     1    76     1211     205   27.2      1   .95914 |
    |————————————————————|
21. | 763940     1    39      407      60   33.4      1   .11039 |
22. | 822913     0    41     1100      38   28.9      1   .54136 |
23. | 816293     1    77      506    92.7   40.9      1    .0593 |
24. | 820032     1    75      320     107   26.4      1   .41857 |
25. | 821686     1    45      823      63   18.8      1   .84678 |
    |————————————————————|
26. | 831350     0    48   1402.3     318   28.2      1   .99376 |
27. | 829526     1    65     2272     383   21.6      1   .99992 |
28. | 830224     0    76    489.7      71   36.2      1   .09599 |
29. | 685639     0    80      245     123   36.2      0   .10833 |
30. | 798034     0    40      230      21   24.3      0   .19822 |
    |————————————————————|
31. | 700759     0    46      264      51   30.9      0   .10826 |
32. | 616791     0    51      293      38   28.8      0   .13795 |
33. | 805107     1    79      168      52   28.7      0   .12727 |
34. | 805110     0    46      168      45   33.2      0   .05406 |
35. | 804010     1    78      224      56   28.2      0   .16314 |
    |————————————————————|
36. | 801367     1    53      175      78     45      0   .01031 |
37. | 802216     0    76      290      87     32      0    .1504 |
38. | 803383     0    32      117      66   38.8      0   .02345 |
39. | 795567     0    44      147      58   39.7      0   .01915 |
40. | 794845     0    64      203      51   46.9      0    .0053 |
    |————————————————————|
41. | 794119     1    39      189      84   41.6      0   .02164 |
42. | 794338     0    88      658     205   34.4      0   .60721 |
43. | 794131     0    60      210      46   41.3      0   .01409 |
44. | 794202     0    25      555      52   31.8      0   .17736 |
45. | 803426     0    57      264      58   41.8      0   .01739 |
    |————————————————————|
46. | 806737     1    61      214      79     41      0   .02392 |
47. | 806539     1    65      181      70   36.5      0   .04376 |
48. | 806537     1    63      454      80   33.2      0   .16177 |
49. | 806023     1    56      319      67   38.3      0   .04241 |
50. | 802369     0    68     1033      88   32.2      0   .52563 |
    |————————————————————|
51. | 802028     0    82      320      64   31.6      0   .12873 |
52. | 801515     1    35      171      73   37.2      0   .03931 |
53. | 801928     0    70      449      59   37.7      0   .05758 |
54. | 800184     0    85      278      55   35.2      0   .05649 |
55. | 801605     0    70      2.9      54   37.9      0   .01765 |
    |————————————————————|
56. | 801603     0    35      354      30   37.9      0   .02971 |
57. | 801307     1    86      138      78   34.8      0   .05947 |
58. | 800230     0    77      225      53   36.1      0   .04133 |
59. | 794964     1    66      323      95   33.1      0   .14949 |
60. | 795620     1    43      146      87   36.5      0    .0508 |
    |————————————————————|
61. | 795252     0    48      205      66   33.1      0   .07946 |
62. | 795526     1    48      174      94     41      0   .02676 |
63. | 792978     0    58      170      72   35.2      0   .05513 |
64. | 794217     1    57      270      58   33.9      0   .07237 |
65. | 773257     0    76      160      63   35.2      0   .04763 |
    |————————————————————|
66. | 792542     1    49      194      57   32.7      0   .07364 |
67. | 792833     1    47      158      94   34.5      0   .08124 |
68. | 800538     1    66      217      50   36.6      0   .03558 |
69. | 789694     1    85      310      76   27.7      0   .26112 |
70. | 799492     0    72       29      40     29      0   .07581 |
    |————————————————————|
71. | 793578     0    72      186      71     31      0   .11556 |
72. | 791232     0    77      144      61   34.8      0   .04788 |
73. | 788760     1    57      145      90   47.6      0   .00703 |
74. | 799116     1    44      227      61   37.3      0   .03743 |
75. | 802375     1    49      279      63   45.3      0    .0102 |
    |————————————————————|
76. | 784337     1    32      148      64   35.6      0   .04371 |
77. | 783947     1    31      269      76   40.8      0   .02719 |
78. | 783842     1    29      654      74     36      0   .14782 |
79. | 783501     1    69      236      74     44      0   .01361 |
80. | 783198     1    84      203      60   37.7      0   .03243 |
    |————————————————————|
81. | 605046     1    35     1194     204   38.1      0   .74518 |
82. | 610769     0    55      982      50   30.4      0   .44136 |
83. | 619327     1    17      485      83   41.8      0   .04217 |
84. | 650544     0    74      258     212     31      0   .54198 |
85. | 767680     0    70    290.3      80   39.7      0   .03689 |
    |————————————————————|
86. | 829694     1    28      265      73   51.2      0   .00382 |
87. | 829106     0    59      337      48   35.5      0   .05603 |
88. | 828745     1    38      218      74   43.8      0    .0135 |
89. | 828666     1    89      498     101   39.1      0   .08864 |
90. | 828263     1    50      187      74   28.5      0   .17874 |
    |————————————————————|
91. | 827393     1    77      186      69   42.3      0   .01531 |
92. | 827369     1    62      242      90   37.9      0   .05191 |
93. | 827156     0    25      282      54   41.7      0    .0175 |
94. | 827034     0    27      144      49     30      0   .09364 |
95. | 826948     0    34      124      48     42      0   .01031 |
    |————————————————————|
96. | 826817     1    34      202      70   37.7      0   .03716 |
97. | 826696     1    58      303      70     33      0   .10633 |
98. | 825045     1    63      234      61   30.5      0   .12284 |
99. | 824940     0    80      271      71   40.9      0   .02502 |
100. | 824605     1    38      157      87   47.7      0   .00681 |
    |————————————————————|
101. | 823381     1    70      209      74     31      0   .12624 |
102. | 833486     0    72      168      94   27.6      0   .24636 |
103. | 832515     0    90      193      45   30.8      0   .08678 |
104. | 832070     1    50      219      80   35.9      0   .06098 |
105. | 831928     1    37      131      79   43.5      0   .01236 |
    |————————————————————|
106. | 831566     0    62      179      61     41      0   .01704 |
107. | 831124     0    65      235      45   35.6      0   .04146 |
108. | 830946     1    55      115      71   44.9      0   .00819 |
109. | 830745     1    45      134      78   39.7      0   .02456 |
110. | 830581     1    67      369      73   39.2      0   .04423 |
    |————————————————————|
111. | 830523     0    63      967      81   34.8      0   .34388 |
112. | 829833     0    75      184      89   39.7      0   .03233 |
113. | 828503     1    29      662      96   26.4      0   .59103 |
    +————————————————————+

. logit mods sex

Iteration 0:   log likelihood = -63.26774
Iteration 1:   log likelihood = -63.009407
Iteration 2:   log likelihood = -63.008974
Iteration 3:   log likelihood = -63.008974

Logistic regression                               Number of obs  =        113
                                                LR chi2(1)      =       0.52
                                                Prob > chi2     =     0.4719
Log likelihood = -63.008974                       Pseudo R2       =     0.0041

——————————————————————————
       mods |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
————-+—————————————————————-
        sex |    .317535   .4437959     0.72   0.474     -.552289   1.187359
      _cons | -1.290984   .3404542    -3.79   0.000    -1.958262   -.6237061
——————————————————————————

. logit mods age

Iteration 0:   log likelihood = -63.26774
Iteration 1:   log likelihood = -61.410619
Iteration 2:   log likelihood = -61.384146
Iteration 3:   log likelihood = -61.384131
Iteration 4:   log likelihood = -61.384131

Logistic regression                               Number of obs  =        113
                                                LR chi2(1)      =       3.77
                                                Prob > chi2     =     0.0523
Log likelihood = -61.384131                       Pseudo R2       =     0.0298

——————————————————————————
       mods |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
————-+—————————————————————-
        age |   .0246326   .0131484     1.87   0.061    -.0011379    .050403
      _cons | -2.614525   .8575939    -3.05   0.002    -4.295378   -.9336716
——————————————————————————

. logit mods ldh

Iteration 0:   log likelihood = -63.26774
Iteration 1:   log likelihood = -43.576347
Iteration 2:   log likelihood = -43.455543
Iteration 3:   log likelihood = -43.455308
Iteration 4:   log likelihood = -43.455308

Logistic regression                               Number of obs  =        113
                                                LR chi2(1)      =      39.62
                                                Prob > chi2     =     0.0000
Log likelihood = -43.455308                       Pseudo R2       =     0.3132

——————————————————————————
       mods |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
————-+—————————————————————-
        ldh |   .0040724   .0009141     4.45   0.000     .0022808   .0058641
      _cons | -3.006031   .4828876    -6.23   0.000    -3.952473   -2.059589
——————————————————————————

. logit mods cr

Iteration 0:   log likelihood = -63.26774
Iteration 1:   log likelihood = -41.24542
Iteration 2:   log likelihood = -41.119546
Iteration 3:   log likelihood = -41.117441
Iteration 4:   log likelihood = -41.117441

Logistic regression                               Number of obs  =        113
                                                LR chi2(1)      =      44.30
                                                Prob > chi2     =     0.0000
Log likelihood = -41.117441                       Pseudo R2       =     0.3501

——————————————————————————
       mods |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
————-+—————————————————————-
         cr |   .0225873   .0050643     4.46   0.000     .0126615   .0325131
      _cons | -3.578768   .5798729    -6.17   0.000    -4.715298   -2.442238
——————————————————————————

. logit mods abl

Iteration 0:   log likelihood = -63.26774
Iteration 1:   log likelihood = -45.365845
Iteration 2:   log likelihood = -43.453786
Iteration 3:   log likelihood = -43.421114
Iteration 4:   log likelihood = -43.421108
Iteration 5:   log likelihood = -43.421108

Logistic regression                               Number of obs  =        113
                                                LR chi2(1)      =      39.69
                                                Prob > chi2     =     0.0000
Log likelihood = -43.421108                       Pseudo R2       =     0.3137

——————————————————————————
       mods |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
————-+—————————————————————-
        abl | -.2767854   .0579555    -4.78   0.000    -.3903761   -.1631947
      _cons |   7.821677   1.815949     4.31   0.000     4.262483   11.38087
——————————————————————————

. logit mods ldh cr abl

Iteration 0:   log likelihood = -63.26774
Iteration 1:   log likelihood = -31.249401
Iteration 2:   log likelihood = -30.061031
Iteration 3:   log likelihood = -30.03929
Iteration 4:   log likelihood = -30.039258
Iteration 5:   log likelihood = -30.039258

Logistic regression                               Number of obs  =        113
                                                LR chi2(3)      =      66.46
                                                Prob > chi2     =     0.0000
Log likelihood = -30.039258                       Pseudo R2       =     0.5252

——————————————————————————
       mods |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
————-+—————————————————————-
        ldh |   .0024992    .001073     2.33   0.020     .0003962   .0046021
         cr |   .0143511   .0057272     2.51   0.012     .0031261   .0255761
        abl | -.1858638   .0647696    -2.87   0.004    -.3128099   -.0589177
      _cons |    2.24286   2.246818     1.00   0.318    -2.160823   6.646544
——————————————————————————

. lfit,g(10)

Logistic model for mods, goodness-of-fit test

(Table collapsed on quantiles of estimated probabilities)

      number of observations =       113
            number of groups =        10
     Hosmer-Lemeshow chi2(8) =         5.93
                 Prob > chi2 =         0.6549

. lstat

Logistic model for mods

             ——– True ——–
Classified |         D            ~D |      Total
———–+————————–+———–
    +     |        20             5 |         25
    –     |         8            80 |         88
———–+————————–+———–
Total   |        28            85 |        113

Classified + if predicted Pr(D) >= .5
True D defined as mods != 0
————————————————–
Sensitivity                     Pr( +| D)   71.43%
Specificity                     Pr( -|~D)   94.12%
Positive predictive value       Pr( D| +)   80.00%
Negative predictive value       Pr(~D| -)   90.91%
————————————————–
False + rate for true ~D        Pr( +|~D)    5.88%
False – rate for true D         Pr( -| D)   28.57%
False + rate for classified +   Pr(~D| +)   20.00%
False – rate for classified –   Pr( D| -)    9.09%
————————————————–
Correctly classified                        88.50%
————————————————–

. predict pre
(option pr assumed; Pr(mods))

. roctab mods pre

                     ROC                    -Asymptotic Normal–
          Obs       Area     Std. Err.      [95% Conf. Interval]
        ——————————————————–
          113     0.9273       0.0268        0.87485     0.97977

. roctab mods pre,g

. lsens

. roccomp mods pre ldh cr abl

                             ROC                    -Asymptotic Normal–
                  Obs       Area     Std. Err.      [95% Conf. Interval]
————————————————————————-
pre                113     0.9273       0.0268        0.87485     0.97977
ldh                113     0.9034       0.0285        0.84752     0.95921
cr                 113     0.7998       0.0633        0.67580     0.92378
abl                113     0.1483       0.0444        0.06136     0.23528
————————————————————————-
Ho: area(pre) = area(ldh) = area(cr) = area(abl)
   chi2(3) =   189.39       Prob>chi2 =   0.0000

. rocgold mods pre ldh cr abl

——————————————————————————-
                      ROC                                           Bonferroni
                     Area     Std. Err.       chi2    df  Pr>chi2     Pr>chi2
——————————————————————————-
pre (standard)      0.9273       0.0268
ldh                 0.9034       0.0285      0.6873     1   0.4071      1.0000
cr                  0.7998       0.0633      4.9712     1   0.0258      0.0773
abl                 0.1483       0.0444    135.4836     1   0.0000      0.0000
——————————————————————————-

. roctab mods pre,d

Detailed report of sensitivity and specificity
——————————————————————————
                                          Correctly
Cutpoint      Sensitivity   Specificity   Classified          LR+          LR-
——————————————————————————
( >= .00382 )     100.00%         0.00%       24.78%       1.0000
( >= .0053 )      100.00%         1.18%       25.66%       1.0119       0.0000
( >= .00681 )     100.00%         2.35%       26.55%       1.0241       0.0000
( >= .00703 )     100.00%         3.53%       27.43%       1.0366       0.0000
( >= .00819 )     100.00%         4.71%       28.32%       1.0494       0.0000
( >= .0102 )      100.00%         5.88%       29.20%       1.0625       0.0000
( >= .01031 )     100.00%         7.06%       30.09%       1.0759       0.0000
( >= .01236 )     100.00%         9.41%       31.86%       1.1039       0.0000
( >= .0135 )      100.00%        10.59%       32.74%       1.1184       0.0000
( >= .01361 )     100.00%        11.76%       33.63%       1.1333       0.0000
( >= .01409 )     100.00%        12.94%       34.51%       1.1486       0.0000
( >= .01531 )     100.00%        14.12%       35.40%       1.1644       0.0000
( >= .01704 )     100.00%        15.29%       36.28%       1.1806       0.0000
( >= .01739 )     100.00%        16.47%       37.17%       1.1972       0.0000
( >= .0175 )      100.00%        17.65%       38.05%       1.2143       0.0000
( >= .01765 )     100.00%        18.82%       38.94%       1.2319       0.0000
( >= .01915 )     100.00%        20.00%       39.82%       1.2500       0.0000
( >= .02164 )     100.00%        21.18%       40.71%       1.2687       0.0000
( >= .02345 )     100.00%        22.35%       41.59%       1.2879       0.0000
( >= .02392 )     100.00%        23.53%       42.48%       1.3077       0.0000
( >= .02456 )     100.00%        24.71%       43.36%       1.3281       0.0000
( >= .02502 )     100.00%        25.88%       44.25%       1.3492       0.0000
( >= .02676 )     100.00%        27.06%       45.13%       1.3710       0.0000
( >= .02719 )     100.00%        28.24%       46.02%       1.3934       0.0000
( >= .02971 )     100.00%        29.41%       46.90%       1.4167       0.0000
( >= .03233 )     100.00%        30.59%       47.79%       1.4407       0.0000
( >= .03243 )     100.00%        31.76%       48.67%       1.4655       0.0000
( >= .03558 )     100.00%        32.94%       49.56%       1.4912       0.0000
( >= .03689 )     100.00%        34.12%       50.44%       1.5179       0.0000
( >= .03716 )     100.00%        35.29%       51.33%       1.5455       0.0000
( >= .03743 )     100.00%        36.47%       52.21%       1.5741       0.0000
( >= .03931 )     100.00%        37.65%       53.10%       1.6038       0.0000
( >= .04133 )     100.00%        38.82%       53.98%       1.6346       0.0000
( >= .04146 )     100.00%        40.00%       54.87%       1.6667       0.0000
( >= .04217 )     100.00%        41.18%       55.75%       1.7000       0.0000
( >= .04241 )     100.00%        42.35%       56.64%       1.7347       0.0000
( >= .04371 )     100.00%        43.53%       57.52%       1.7708       0.0000
( >= .04376 )     100.00%        44.71%       58.41%       1.8085       0.0000
( >= .04423 )     100.00%        45.88%       59.29%       1.8478       0.0000
( >= .04763 )     100.00%        47.06%       60.18%       1.8889       0.0000
( >= .04788 )     100.00%        48.24%       61.06%       1.9318       0.0000
( >= .0508 )      100.00%        49.41%       61.95%       1.9767       0.0000
( >= .05191 )     100.00%        50.59%       62.83%       2.0238       0.0000
( >= .05406 )     100.00%        51.76%       63.72%       2.0732       0.0000
( >= .05513 )     100.00%        52.94%       64.60%       2.1250       0.0000
( >= .05603 )     100.00%        54.12%       65.49%       2.1795       0.0000
( >= .05649 )     100.00%        55.29%       66.37%       2.2368       0.0000
( >= .05758 )     100.00%        56.47%       67.26%       2.2973       0.0000
( >= .0593 )      100.00%        57.65%       68.14%       2.3611       0.0000
( >= .05947 )      96.43%        57.65%       67.26%       2.2768       0.0620
( >= .06098 )      96.43%        58.82%       68.14%       2.3418       0.0607
( >= .0614 )       96.43%        60.00%       69.03%       2.4107       0.0595
( >= .07237 )      92.86%        60.00%       68.14%       2.3214       0.1190
( >= .07364 )      92.86%        61.18%       69.03%       2.3918       0.1168
( >= .07581 )      92.86%        62.35%       69.91%       2.4665       0.1146
( >= .07946 )      92.86%        63.53%       70.80%       2.5461       0.1124
( >= .08124 )      92.86%        64.71%       71.68%       2.6310       0.1104
( >= .08678 )      92.86%        65.88%       72.57%       2.7217       0.1084
( >= .08864 )      92.86%        67.06%       73.45%       2.8189       0.1065
( >= .09364 )      92.86%        68.24%       74.34%       2.9233       0.1047
( >= .09599 )      92.86%        69.41%       75.22%       3.0357       0.1029
( >= .10633 )      89.29%        69.41%       74.34%       2.9190       0.1544
( >= .10826 )      89.29%        70.59%       75.22%       3.0357       0.1518
( >= .10833 )      89.29%        71.76%       76.11%       3.1622       0.1493
( >= .11039 )      89.29%        72.94%       76.99%       3.2997       0.1469
( >= .11556 )      85.71%        72.94%       76.11%       3.1677       0.1959
( >= .12284 )      85.71%        74.12%       76.99%       3.3117       0.1927
( >= .12624 )      85.71%        75.29%       77.88%       3.4694       0.1897
( >= .12727 )      85.71%        76.47%       78.76%       3.6429       0.1868
( >= .12873 )      85.71%        77.65%       79.65%       3.8346       0.1840
( >= .13795 )      85.71%        78.82%       80.53%       4.0476       0.1812
( >= .1432 )       85.71%        80.00%       81.42%       4.2857       0.1786
( >= .14782 )      82.14%        80.00%       80.53%       4.1071       0.2232
( >= .14949 )      82.14%        81.18%       81.42%       4.3638       0.2200
( >= .1504 )       82.14%        82.35%       82.30%       4.6548       0.2168
( >= .16177 )      82.14%        83.53%       83.19%       4.9872       0.2138
( >= .16314 )      82.14%        84.71%       84.07%       5.3709       0.2108
( >= .17659 )      82.14%        85.88%       84.96%       5.8185       0.2079
( >= .17736 )      78.57%        85.88%       84.07%       5.5655       0.2495
( >= .17874 )      78.57%        87.06%       84.96%       6.0714       0.2461
( >= .19822 )      78.57%        88.24%       85.84%       6.6786       0.2429
( >= .23909 )      78.57%        89.41%       86.73%       7.4206       0.2397
( >= .24636 )      75.00%        89.41%       85.84%       7.0833       0.2796
( >= .26112 )      75.00%        90.59%       86.73%       7.9687       0.2760
( >= .34388 )      75.00%        91.76%       87.61%       9.1071       0.2724
( >= .41857 )      75.00%        92.94%       88.50%      10.6250       0.2690
( >= .44136 )      71.43%        92.94%       87.61%      10.1190       0.3074
( >= .51026 )      71.43%        94.12%       88.50%      12.1429       0.3036
( >= .52563 )      67.86%        94.12%       87.61%      11.5357       0.3415
( >= .54136 )      67.86%        95.29%       88.50%      14.4197       0.3373
( >= .54198 )      64.29%        95.29%       87.61%      13.6607       0.3748
( >= .59103 )      64.29%        96.47%       88.50%      18.2143       0.3702
( >= .60721 )      64.29%        97.65%       89.38%      27.3214       0.3657
( >= .69305 )      64.29%        98.82%       90.27%      54.6430       0.3614
( >= .74518 )      60.71%        98.82%       89.38%      51.6073       0.3975
( >= .84005 )      60.71%       100.00%       90.27%                    0.3929
( >= .84678 )      57.14%       100.00%       89.38%                    0.4286
( >= .85097 )      53.57%       100.00%       88.50%                    0.4643
( >= .86829 )      50.00%       100.00%       87.61%                    0.5000
( >= .92791 )      46.43%       100.00%       86.73%                    0.5357
( >= .92918 )      42.86%       100.00%       85.84%                    0.5714
( >= .93128 )      39.29%       100.00%       84.96%                    0.6071
( >= .93165 )      35.71%       100.00%       84.07%                    0.6429
( >= .94542 )      32.14%       100.00%       83.19%                    0.6786
( >= .95914 )      28.57%       100.00%       82.30%                    0.7143
( >= .99376 )      25.00%       100.00%       81.42%                    0.7500
( >= .99519 )      21.43%       100.00%       80.53%                    0.7857
( >= .99814 )      17.86%       100.00%       79.65%                    0.8214
( >= .99972 )      14.29%       100.00%       78.76%                    0.8571
( >= .99992 )       7.14%       100.00%       76.99%                    0.9286
( >= .99995 )       3.57%       100.00%       76.11%                    0.9643
( > .99995 )       0.00%       100.00%       75.22%                    1.0000
——————————————————————————

转载请注明：数据分析 » 使用Stata进行Logistic回归分析实例分析_stata中logistic回归

↧

数值型字符型转换，destring tostring _stata

April 26, 2017, 8:53 pm

≫ Next: Stata面板数据处理_stata面板数据处理的步骤

≪ Previous: 使用Stata进行Logistic回归分析实例分析_stata中logistic回归

数值型字符型转换，destring tostring

关键词：数据分析、数据分析师

. tostring age,replace

age was byte now str2

. d age

storage display value

variable name type format label variable label

————————————————————————————————–

age str2 %9s

. destring age,replace

age has all characters numeric; replaced as byte

. d age

storage display value

variable name type format label variable label

————————————————————————————————–

age byte .0g

******************************************************

如何将stata中的字符型数据转为数值型

你可以这样处理，先保持这个变量为字符型的变量，然后有substr的命令，提取前四位，只要年份，然后再转化为数值型，就可以计算了。具体来说说着这样的
gen year=substr(accouperi,1,4)
生成一个新变量，这个新变量叫year
destring year, replace
这个命令就是把字符型转化为数值型的命名。

数据类型转换之字符型-数值型

Stata中有两种数据类型：字符型和数值型。在我们处理数据的时候，经常会遇到原始数据的数据类型不是我们所需要的数据类型，这就需要我们将原始数据中的一些数据类型进行转换，从而将其转成我们期望的数据类型。Stata也提供了一些相关命令。其中，字符型变量转换为数值型变量的命令有：real()函数，encode和destring命令；数值型变量转换为字符型变量的命令有：strofreal()函数，decode和tostring命令，它们相互对应，那到底有哪些区别与联系呢？

今天我们先来讲一讲如何把字符型变量转化为数值型变量。

一、命令介绍

encode命令：只可以将以字符型格式储存的非数值变量转换为数值型变量，它的返回值只是1,2,3……的序号变量，相同属性的观测值赋值相同，相当于给字符变量重新编码，并且将原来的字符型数据设置为转换后的数值型变量的标签。常用选项介绍如下：

destring命令：将以字符型格式储存的数值变量转化为数值型变量。常用选项介绍如下：

real(s)函数：同destring命令一样，可以将以字符型格式储存的数值s转化为数值型变量。若s是以字符型格式储存的非数值变量返回缺失值；另外，real()函数还可以对某一个具体观测值实现转变。

二、例子说明

为了方便介绍选项，我们输入如下数据，代码如下：

clear

input ///

str3 num str2 name str10 per str6 income

-1 a “10%” “9747”

1 b “62%” “1,234”

1 a “53%” “938.9”

-1 c “48,6%” “8344”

2 d “58%” “2398”

-2 e “46%” “-”

-3 c “78%” “53822”

3 d “92,2%” “na”

-1 e “65%” “$28477”

1 b “3,6%” “n/a”

end

字符型格式储存的数值变量num的转换

代码如下：

encode num, gen(num1)

destring num, gen(num2)

gen num3=real(num)

br num num1 num2 num3 in 1/5

可以看到，对于字符型格式储存的数值变量的3种转换形式，输出结果基本没有区别，但是，num1与num2、num3的显示颜色不一样，需要注意的是，encode命令只是对字符变量重新编码，输出结果不应该和其他两种转换方式所得结果是一样的，这是怎么回事呢？我们删除变量的标签值，来看看输出结果会发生什么变化：

label drop _all

br num num1 num2 num3

可以看到，num1只是对变量num进行数值排序。说明encode命令并非真正意义上的将字符型变量转换为数值型变量，它只是返回了变量的标签。

字符型格式储存的非数值变量name的转换

具体代码如下：

encode name, gen(name1) label(xing)

destring name, gen(name2)

gen name3=real(name)

list name name1 name2 name3

stata提示name2没有被找到。那是因为name中有非数字特征，destring命令无法转换，说明该命令只能对字符型格式储存的数值变量起作用，如果必须转换就加force选项，但返回值和real()返回的一样，是缺失的。

.destring name, gen(name2) force

br name name1 name2 name3 in 1/4

字符型格式储存的混合变量income的转变

为了转换的方便，需要先用tab命令进行查看各个变量不同的非数字特征，代码如下：

tab income if regexm(income, “[^0-9.]”)

然后用destring命令进行转换，代码如下：

destring income, ignore(“$” “-” “,” “na” “n/a”) gen(income1)

br income income1

前面我们用正则表达式查看了非法数字的类型，当然在这里也我们可以不用ignore选项而选择用正则表达式将上述非法数字进行替换，然后进行转变，具体命令如下：

gen income2=ustrregexra(income,”[^d.]”,””)

destring income2, gen(income3)

br income income2 income3

可以看到相同结果：

最后，以变量per的转换为例，我们介绍一下命令destring的选项percent和dpcomma的用法，代码如下：

destring per, gen(per1) percent dpcomma

br per per1

转载请注明：数据分析 » 数值型字符型转换，destring tostring _stata

↧

Stata面板数据处理_stata面板数据处理的步骤

May 2, 2017, 6:26 pm

≫ Next: STATA之多元回归结果导出_stata多元回归分析

≪ Previous: 数值型字符型转换，destring tostring _stata

Stata面板数据处理

关键词：stata怎么处理面板数据、stata导入面板数据、面板数据处理的步骤、数据分析

经过一年的学习对Stata面板数据处理有了一定了解。在这里将学习经验分享给大家。

方法/步骤

短面板处理

面板数据是指既有截面数据又有时间序列的数据，因此其存在截面数据没有的优势，在用stata进行面板数据的估计时，一般选择xtreg命令进行拟合。本节主要论述短面板的stata实现，即时间维度T相对于截面数n较小的数据。在那种情况下，由于T较小，每个个体的信息较少，故无从讨论扰动项是否存在自相关，我们一般假设其**同分布。

面板数据维度的确定

在面板数据进行模型估计前，要进行面板数据的维度确定。由于面板数据既有截面数据又有时间序列，而stata不能自动识别，因此，必须使得stata得知哪一部分是截面数据，而哪一部分是时间序列。

设置面板数据维度的基本命令为：

xtset panelvar timvar [, tsoptions]

其中panelvar代表截面数据变量，timvar代表时间序列变量。

选取某一面板数据进行维度设定（该数据研究职业培训津贴对厂商废弃率的影响）：

xtset fcode year

固定效应估计

xtreg可以估计固定效应与随机效应，两者的差异在于选项的不同。

xtreg用来做固定效应的语法是：

xtreg depvar [indepvars] [if] [in] [weight] , fe [FE_options]

其语法可以help xtreg获得。（说明，其中xt表示面板数据的命令，因此，在stata中输入help xt可以学习面板数据描述、估计等命令。）

选取某一数据进行拟合：

xtreg lscrap d88 d89 grant grant_1,fe

结果显示如下：

其中，(1)表示组内、组间、总体的R方，其中固定效应看组内R-sq，随机效应看总体R-sq。

(2)表示个体效应与解释变量的相关系数。

(3)F检验表示模型整体显著性。

(4)U表示个体观测效应，sigma_u为个体效应的标准差

E表示随机干扰项，u+e为所谓的混合误差，rho是指个体效应的方差占混合误差方差的比重。

备注：（1）（2）（3）（4）分别对应一下的四张照片

随机效应估计

xtreg用来做随机效应的语法是：

xtreg depvar [indepvars] [if][in] [weight] , re [RE_options]

与上一部分类似的估计

xtreg lscrap d88 d89 grantgrant_1,re

（1）

与固定效应不同的是，固定效应F检验处，此处为瓦尔德卡方检验，同样表示模型整体显著性。

固定效应与随机效应的选择：豪斯曼检验

首先，看两个效应的区别

固定效应与随机效应的区别

区别一：

FE / RE 模型可统一表述为： y_it = u_i + x_it*b + e_it

对于FE，个体效应 u_i 被视为一组解释变量，为非随机变量，即 N-1 个虚拟变量；对于RE，个体效应 u_i被视为干扰项的一部分，因此是随机变量，假设其服从正态分布，即 u_i~N(0, sigma_u^2)；在上述两个模型的设定中，e_it都被视为“干干净净的”干扰项，也就是OLS时那个背负着众多假设条件，但长相极为俊俏的干扰项，e_it~N(0,sigma_e^2)。需要注意的是，在 FE 模型中，只有一个干扰项 e_it，它可以随公司和时间而改变，所有个体差异都采用 u_i 来捕捉。而在 RE 模型中，其实有两个干扰项：u_i 和 e_it，差别在于，第一种干扰项不随时间改变（这也是所谓的“个体效应”的含义），而第二类干扰项可以随时间改变。因为上述对 FE 和 RE 中个体效应 u_i 的假设之差异，二者的估计方法亦有差异。FE可直接采用OLS估计，而RE则必须使用GLS才能获得更为有效的估计量。

固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上；随机效应模型则假设所有的个体具有相同的截距项，个体的差异主要反应在随机干扰项的设定上。

区别二：

固定效应更适合研究样本之间的区别，而随机效应适合由样本来推断总体特征。

其次，Hausman检验确定模型形式的选择。

以上面的面板数据为例

xtreg lscrap d88 d89 grant grant_1,fe

est store fe

xtreg lscrap d88 d89 grant grant_1,re

est store re

hausman fe

结果显示：

(1)

原假设为随机效应，而最终P值为0.7096，接受原假设，模型最终选择为随机效应。

转载请注明：数据分析 » Stata面板数据处理_stata面板数据处理的步骤

↧