为了进行经济计量分析,我试图对巴西中央银行和一个政府研究机构的一些教育、健康和收入数据进行回归分析。Python、pandas、statsmodels和matplotlib是我在这个项目中使用最多的外部库。在
数据的格式是在多个表中,行和列的城市/州各有一年(有些文件有城市数据,有些文件有州数据)。在
按城市和年份列出的熊猫收入数据框示例:
1200302 1200328 ... 1720937 1720978 1721000 1721109 1721208 \
1970 0.31 NaN ... NaN NaN NaN 0.20 0.28
1980 0.39 NaN ... NaN NaN NaN 0.45 0.57
1991 0.44 NaN ... NaN NaN 1.45 0.65 0.46
(顶部的每个数字都是城市代码-许多城市都有相同的名称。在
对于州数据,每个州都有20-30年的测量时间,而对于城市来说,当进行全国人口普查时,这一数据仅可用于3-4年。)
我想比较一下教育、健康和收入的指标。所有指标都已选定,数据集被导入pandas数据帧中,并进行了极少量的清理。在
对于多个独立变量,如何在所有城市/州找到OLS或FE回归的R值?
现在,我的程序配置为一次运行一个独立变量的两个州或两个城市的线性OLS回归:
^{pr2}$
像这样的不平衡面板数据的标准方法是为每个横截面单位叠加时间序列,并为固定效果创建虚拟变量。在
为横截面单位创建固定效果(即单位特定截距),需要一个带有州和城市标签或ID的分类变量。然后,公式接口和patsy可以使用
C(id)
创建所需的伪变量。在然后利用OLS对有限元模型进行估计。拟合方法有一个cov_类型选项,可以使用面板或聚类稳健标准误差来修正横截面或相关内的标准误差。在
相关问题 更多 >
编程相关推荐