In [17]: df = sf.to_dataframe()
In [18]: pd.options.display.max_colwidth = 40
In [19]: df.head()
Out[19]:
URI name text
0 <http://dbpedia.org/resource/Digby_M... Digby Morrell digby morrell born 10 october 1979 i...
1 <http://dbpedia.org/resource/Alfred_... Alfred J. Lewy alfred j lewy aka sandy lewy graduat...
2 <http://dbpedia.org/resource/Harpdog... Harpdog Brown harpdog brown is a singer and harmon...
3 <http://dbpedia.org/resource/Franz_R... Franz Rottensteiner franz rottensteiner born in waidmann...
4 <http://dbpedia.org/resource/G-Enka> G-Enka henry krvits born 30 december 1974 i...
In [20]: df.shape
Out[20]: (59071, 3)
只要用MaxU来澄清答案,你就是在试图错误地阅读它。它是一个原始文件,其格式包含在link中同一文件夹中的其他文件中。Pandas要求您事先知道文件的编码格式(即分隔符、列数等)。它不能被用作魔杖,在没有意识到的情况下读取任何文件。在
IPython笔记本就在你的link文件夹外面,它精确地显示了如何读取这些数据。MaxU正确地提到了所讨论的特定文件只是SFrame的一部分,SFrame是GraphLab框架的一个结构。因此,您试图从整体的一部分中提取有意义的数据,因此您无法进行有意义的操作。在
但是,您可以读取graphlab文件并将其转换为Pandas数据帧。有关详细信息,请参见here。在
这些文件是已保存的SFrame的一部分。在
所以可以这样加载它们:
演示:我已经从people_wiki.gl下载了所有文件,并将它们放在:
^{pr2}$D:/download/sframe/
下现在,如果需要,可以将其转换为熊猫DF:
相关问题 更多 >
编程相关推荐