带有Hive分隔符的.gz文件转为pandas DataFrame
我在尝试加载我的 .gz 数据文件时,得到了一个非常奇怪的结果。
我的代码其实很简单:
dt = pd.read_table(gzip.open(file.gz))
但是我得到的分隔符很奇怪。我本来期待的是一个制表符('\t'),但在 iPython 中它被识别为一个白色左指三角形。其他大多数程序根本看不见它。
这些数据最初是通过 paramiko 从 hive 获取的,如果这有关系的话,我可以提供更多细节。有没有人能建议我该如何处理这样的分隔符呢?
编辑:
print(gzip.open("file.gz").read()[-5])
返回的正是这个字符。
还有:
In [28] gzip.open("file.gz").read()[-5]
Out[28]: '\x01'
1 个回答
9
pd.read_table("file.gz",compression='gzip',sep='\x01')
或者
pd.read_table(gzip.open('file.gz'),sep='\x01')
这两种方法都可以实现。