在python中格式化用于OLS回归的pandas数据帧

2024-04-29 04:49:45 发布

您现在位置:Python中文网/ 问答频道 /正文

为了进行经济计量分析,我试图对巴西中央银行和一个政府研究机构的一些教育、健康和收入数据进行回归分析。Python、pandas、statsmodels和matplotlib是我在这个项目中使用最多的外部库。在

数据的格式是在多个表中,行和列的城市/州各有一年(有些文件有城市数据,有些文件有州数据)。在

按城市和年份列出的熊猫收入数据框示例:

1200302  1200328  ...   1720937  1720978  1721000  1721109  1721208  \
1970     0.31      NaN  ...       NaN      NaN      NaN     0.20     0.28   
1980     0.39      NaN  ...       NaN      NaN      NaN     0.45     0.57   
1991     0.44      NaN  ...       NaN      NaN     1.45     0.65     0.46   

(顶部的每个数字都是城市代码-许多城市都有相同的名称。在

对于州数据,每个州都有20-30年的测量时间,而对于城市来说,当进行全国人口普查时,这一数据仅可用于3-4年。)

我想比较一下教育、健康和收入的指标。所有指标都已选定,数据集被导入pandas数据帧中,并进行了极少量的清理。在

对于多个独立变量,如何在所有城市/州找到OLS或FE回归的R值?

现在,我的程序配置为一次运行一个独立变量的两个州或两个城市的线性OLS回归:

^{pr2}$

Tags: 文件数据项目pandas机构matplotlib格式经济
1条回答
网友
1楼 · 发布于 2024-04-29 04:49:45

像这样的不平衡面板数据的标准方法是为每个横截面单位叠加时间序列,并为固定效果创建虚拟变量。在

为横截面单位创建固定效果(即单位特定截距),需要一个带有州和城市标签或ID的分类变量。然后,公式接口和patsy可以使用C(id)创建所需的伪变量。在

然后利用OLS对有限元模型进行估计。拟合方法有一个cov_类型选项,可以使用面板或聚类稳健标准误差来修正横截面或相关内的标准误差。在

相关问题 更多 >