使用Pandas打开NSFG数据(来自ThinkStats书籍)

0 投票
1 回答
1059 浏览
提问于 2025-04-18 09:28

我正在读一本书,叫《ThinkStats》。http://greenteapress.com/thinkstats/nsfg_data.html

我想用pandas来处理数据,因为我想提高这方面的技能,但我在打开这个文件时遇到了困难。

http://greenteapress.com/thinkstats/nsfg_data.html

我试过用通常的方法 pd.read_csv(filename),但好像不太管用。我也在看书里提供的代码,但对我来说有点难懂。

1 个回答

1

pandas的read_csv函数在处理这个数据集时,需要对数据集本身进行一些思考。实际上,这个数据既不是用逗号分隔的,也不是用空格分隔的格式。

它更像是一种自制的格式,每行的字段数量并不固定,这就是另一个问题。此外,值之间的空格数量也不固定,这又是一个问题。

为了更好地理解数据文件的格式,我建议你去获取作者提供的代码。书中有链接,但这里也提供一下:http://greenteapress.com/thinkstats/,你可以玩玩这些代码,弄清楚使用的格式。

如果你有数据文件,可以使用survey模块。

import survey
preg = survey.Pregancies()
pre.ReadRecors(".")

撰写回答