如何将pandas数据框的数据类型转换为指定格式的字符串?
我快要抓狂了,希望有人能帮帮我。我有一个用openpyxl从Excel表格创建的pandas数据框(DataFrame)。这个数据框看起来是这样的:
print image_name_data
id image_name
0 1001 1001_mar2014_report
1 1002 1002_mar2014_report
2 1003 1003_mar2014_report
[3 rows x 2 columns]
…它的数据类型如下:
print image_name_data.dtypes
id float64
image_name object
dtype: object
问题是,id这一列的数字实际上是识别号,我需要把它们当作字符串来处理。我试着用以下方法把id列转换成字符串:
image_name_data['id'] = image_name_data['id'].astype('str')
这个方法看起来有点丑,但它确实把数据类型变成了'object',而不是'float64':
print image_name_data.dyptes
id object
image_name object
dtype: object
不过,这样生成的字符串里却有小数点,如下所示:
print image_name_data
id image_name
0 1001.0 1001_mar2014_report
1 1002.0 1002_mar2014_report
2 1003.0 1003_mar2014_report
[3 rows x 2 columns]
我该如何把pandas数据框中的float64列转换成特定格式的字符串(比如说,'%10.0f')呢?
3 个回答
2
我把这个放在新的回答里,因为评论里不能有换行或代码块。
我猜你是想把那些“nans”变成空字符串吧?我没找到什么好的方法,只能用一种比较麻烦的方法:
s = pd.Series([1001.,1002.,None])
a = s.loc[s.isnull()].fillna('')
b = s.loc[s.notnull()].astype(int).astype(str)
result = pd.concat([a,b])
8
如果你能重新加载这个,你可能可以使用 dtypes 参数。
pd.read_csv(..., dtype={'COL_NAME':'str'})
63
我无法重现你遇到的问题,但你有没有试着先把它转换成整数呢?
image_name_data['id'] = image_name_data['id'].astype(int).astype('str')
然后,关于你更一般的问题,你可以使用 map
(就像这个回答里提到的那样)。在你的情况下:
image_name_data['id'] = image_name_data['id'].map('{:.0f}'.format)