带有Hive分隔符的.gz文件转为pandas DataFrame

3 投票
1 回答
6826 浏览
提问于 2025-04-18 15:31

我在尝试加载我的 .gz 数据文件时,得到了一个非常奇怪的结果。

我的代码其实很简单:

dt = pd.read_table(gzip.open(file.gz))

但是我得到的分隔符很奇怪。我本来期待的是一个制表符('\t'),但在 iPython 中它被识别为一个白色左指三角形。其他大多数程序根本看不见它。enter image description here

这些数据最初是通过 paramiko 从 hive 获取的,如果这有关系的话,我可以提供更多细节。有没有人能建议我该如何处理这样的分隔符呢?

编辑:

print(gzip.open("file.gz").read()[-5])

返回的正是这个字符。

还有:

In [28] gzip.open("file.gz").read()[-5]
Out[28]: '\x01'

1 个回答

9
pd.read_table("file.gz",compression='gzip',sep='\x01')

或者

pd.read_table(gzip.open('file.gz'),sep='\x01')

这两种方法都可以实现。

撰写回答