如何使用nltk通过正则表达式抓取Twitter流数据

1 投票
3 回答
1369 浏览
提问于 2025-04-16 22:24

我刚开始学习Python,老板给我布置了一个任务,要我做以下几件事:

  1. 从Twitter上获取实时数据,格式是JSON
  2. 使用NLTK和正则表达式进行解析
  3. 把数据保存到文件或者数据库中,好的

有没有人知道怎么按照上面的步骤从Twitter获取实时数据呢?

非常感谢大家的帮助 :)

3 个回答

0

你似乎把同一个问题发了两次,我在另一个帖子里回答了这个问题。如何使用nltk和正则表达式通过pycurl从Twitter获取流数据

1

这应该能给你一些指引

import urllib2, simplejson

json = urllib2.urlopen('http://search.twitter.com/search.json?q=from%3Aalexiskold').read()
tweets = simplejson.loads(json)["results"]
for tweet in tweets: print tweet["text"]

它不能用 eval 来处理,所以我用了 simplejson,你可以在这里找到它 http://simplejson.github.com/simplejson/

2

快速在谷歌上搜索一下,你会找到一个叫Tweepy的东西,它是一个用Python编写的库,可以用来访问Twitter的API。这可以帮助你入门。至于如何解析数据,你需要更具体地说明你想解析什么内容。

撰写回答