如何使用nltk通过正则表达式抓取Twitter流数据
我刚开始学习Python,老板给我布置了一个任务,要我做以下几件事:
- 从Twitter上获取实时数据,格式是JSON
- 使用NLTK和正则表达式进行解析
- 把数据保存到文件或者数据库中,好的
有没有人知道怎么按照上面的步骤从Twitter获取实时数据呢?
非常感谢大家的帮助 :)
3 个回答
0
你似乎把同一个问题发了两次,我在另一个帖子里回答了这个问题。如何使用nltk和正则表达式通过pycurl从Twitter获取流数据
1
这应该能给你一些指引
import urllib2, simplejson
json = urllib2.urlopen('http://search.twitter.com/search.json?q=from%3Aalexiskold').read()
tweets = simplejson.loads(json)["results"]
for tweet in tweets: print tweet["text"]
它不能用 eval
来处理,所以我用了 simplejson
,你可以在这里找到它 http://simplejson.github.com/simplejson/
2
快速在谷歌上搜索一下,你会找到一个叫Tweepy的东西,它是一个用Python编写的库,可以用来访问Twitter的API。这可以帮助你入门。至于如何解析数据,你需要更具体地说明你想解析什么内容。