带有Hive分隔符的.gz文件转为pandas DataFrame

3 投票

1 回答

6826 浏览

提问于 2025-04-18 15:31

我在尝试加载我的 .gz 数据文件时，得到了一个非常奇怪的结果。

我的代码其实很简单：

dt = pd.read_table(gzip.open(file.gz))

但是我得到的分隔符很奇怪。我本来期待的是一个制表符（'\t'），但在 iPython 中它被识别为一个白色左指三角形。其他大多数程序根本看不见它。 enter image description here

这些数据最初是通过 paramiko 从 hive 获取的，如果这有关系的话，我可以提供更多细节。有没有人能建议我该如何处理这样的分隔符呢？

编辑：

print(gzip.open("file.gz").read()[-5])

返回的正是这个字符。

还有：

In [28] gzip.open("file.gz").read()[-5]
Out[28]: '\x01'

ipython pandas data loading data processing paramiko hive gz files delimiters

1 个回答

pd.read_table("file.gz",compression='gzip',sep='\x01')

或者

pd.read_table(gzip.open('file.gz'),sep='\x01')

这两种方法都可以实现。

回答于 2025-04-18 由 Python大师

分享举报