Pandas:如何打开某些文件

2024-03-28 23:21:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我目前正在处理来自这个link的数据集。但是我不能读熊猫的这些文件?有人试过玩这些文件吗?在

我正在尝试以下方法:

import pandas as pd

df = pd.read_csv("m_4549381c276b46c6.0000")

但是我得到了以下错误

^{pr2}$

Tags: 文件csv数据方法importpandasdfread
2条回答

只要用MaxU来澄清答案,你就是在试图错误地阅读它。它是一个原始文件,其格式包含在link中同一文件夹中的其他文件中。Pandas要求您事先知道文件的编码格式(即分隔符、列数等)。它不能被用作魔杖,在没有意识到的情况下读取任何文件。在

IPython笔记本就在你的link文件夹外面,它精确地显示了如何读取这些数据。MaxU正确地提到了所讨论的特定文件只是SFrame的一部分,SFrame是GraphLab框架的一个结构。因此,您试图从整体的一部分中提取有意义的数据,因此您无法进行有意义的操作。在

但是,您可以读取graphlab文件并将其转换为Pandas数据帧。有关详细信息,请参见here。在

这些文件是已保存的SFrame的一部分。在

所以可以这样加载它们:

import sframe

sf = sframe.SFrame('/path/to/dir/')

演示:我已经从people_wiki.gl下载了所有文件,并将它们放在:D:/download/sframe/

^{pr2}$

现在,如果需要,可以将其转换为熊猫DF:

In [17]: df = sf.to_dataframe()

In [18]: pd.options.display.max_colwidth = 40

In [19]: df.head()
Out[19]:
                                       URI                 name                                     text
0  <http://dbpedia.org/resource/Digby_M...        Digby Morrell  digby morrell born 10 october 1979 i...
1  <http://dbpedia.org/resource/Alfred_...       Alfred J. Lewy  alfred j lewy aka sandy lewy graduat...
2  <http://dbpedia.org/resource/Harpdog...        Harpdog Brown  harpdog brown is a singer and harmon...
3  <http://dbpedia.org/resource/Franz_R...  Franz Rottensteiner  franz rottensteiner born in waidmann...
4     <http://dbpedia.org/resource/G-Enka>               G-Enka  henry krvits born 30 december 1974 i...

In [20]: df.shape
Out[20]: (59071, 3)

相关问题 更多 >