使用Pandas打开NSFG数据(来自ThinkStats书籍)
我正在读一本书,叫《ThinkStats》。http://greenteapress.com/thinkstats/nsfg_data.html
我想用pandas来处理数据,因为我想提高这方面的技能,但我在打开这个文件时遇到了困难。
http://greenteapress.com/thinkstats/nsfg_data.html
我试过用通常的方法 pd.read_csv(filename),但好像不太管用。我也在看书里提供的代码,但对我来说有点难懂。
1 个回答
1
pandas的read_csv函数在处理这个数据集时,需要对数据集本身进行一些思考。实际上,这个数据既不是用逗号分隔的,也不是用空格分隔的格式。
它更像是一种自制的格式,每行的字段数量并不固定,这就是另一个问题。此外,值之间的空格数量也不固定,这又是一个问题。
为了更好地理解数据文件的格式,我建议你去获取作者提供的代码。书中有链接,但这里也提供一下:http://greenteapress.com/thinkstats/,你可以玩玩这些代码,弄清楚使用的格式。
如果你有数据文件,可以使用survey模块。
import survey
preg = survey.Pregancies()
pre.ReadRecors(".")