如何使用nltk通过正则表达式抓取Twitter流数据

1 投票

3 回答

1369 浏览

数据工程师

提问于 2025-04-16 22:24

我刚开始学习Python，老板给我布置了一个任务，要我做以下几件事：

从Twitter上获取实时数据，格式是JSON
使用NLTK和正则表达式进行解析
把数据保存到文件或者数据库中，好的

有没有人知道怎么按照上面的步骤从Twitter获取实时数据呢？

非常感谢大家的帮助 :)

数据解析 json nltk 实时数据 twitter api regex

3 个回答

你似乎把同一个问题发了两次，我在另一个帖子里回答了这个问题。如何使用nltk和正则表达式通过pycurl从Twitter获取流数据

回答于 2025-04-16 由 Python大师

分享举报

这应该能给你一些指引

import urllib2, simplejson

json = urllib2.urlopen('http://search.twitter.com/search.json?q=from%3Aalexiskold').read()
tweets = simplejson.loads(json)["results"]
for tweet in tweets: print tweet["text"]

它不能用 eval 来处理，所以我用了 simplejson，你可以在这里找到它 http://simplejson.github.com/simplejson/

回答于 2025-04-16 由 Python大师

分享举报

快速在谷歌上搜索一下，你会找到一个叫Tweepy的东西，它是一个用Python编写的库，可以用来访问Twitter的API。这可以帮助你入门。至于如何解析数据，你需要更具体地说明你想解析什么内容。

回答于 2025-04-16 由 Python大师

分享举报

如何使用nltk通过正则表达式抓取Twitter流数据

3 个回答

撰写回答