Python:将Tweet unicode数据导入pandas数据框obj

2024-04-29 01:57:40 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图导入一个具有以下结构的文件(tweets的转储,带有unicode字符串)。目标是使用pandas模块将其转换为数据帧。我假设第一步是加载到一个json对象,然后转换成一个数据帧(根据McKinney的PythonyforDataAnalysis一书的第166页),但我不确定,可以使用一些指针来管理这一点。在

import sys, tailer
tweet_sample = tailer.head(open(r'<MyFilePath>\usTweets0.json'), 3)
tweet_sample # returns
['{u\'contributors\': None, u\'truncated\': False, u\'text\': u\'@KREAYSHAWN is...

Tags: 模块文件数据sample对象字符串json目标
1条回答
网友
1楼 · 发布于 2024-04-29 01:57:40

只需使用DataFrame构造函数。。。在

In [6]: tweet_sample = [{'contributers': None, 'truncated': False, 'text': 'foo'}, {'contributers': None, 'truncated': True, 'text': 'bar'}]

In [7]: df = pd.DataFrame(tweet_sample)

In [8]: df
Out[8]:
  contributers text truncated
0         None  foo     False
1         None  bar      True

如果文件是JSON格式,则可以使用^{}打开它:

^{pr2}$

会有一个from_json来给熊猫soon。。。

相关问题 更多 >