所以我在网上托管了一个.gz日志文件,如下所示
https://example.com/sample.log.gz
我可以使用以下命令将其加载到Python列表中:
^{pr2}$
然后,我尝试使用
sqlContext.createDataFrame(data)
但是得到了
TypeError: Can not infer schema for type: <type 'str'>
那么,将.gz日志文件直接加载到pyspark.sql.dataframe.DataFrame
中的有效方法是什么?在
感谢你的帮助!在
Tags:
问题来自于
data
变量的形式。 它是['qwr', 'asd', 'wer']
,但必须是[['qwr'], ['asd'], ['wer']]
。在为此,您可以使用
data = [[x] for x in data]
然后
sqlContext.createDataFrame(data)
另一种解决方案是直接将文件加载为文本文件(但它需要以某种方式保存文件),然后按上述方式进行转换:
相关问题 更多 >
编程相关推荐