Python Twitter 爬虫的 "Hashtable
我正在制作一个Python的Twitter爬虫,想要做一个“哈希表”,这样可以确保我不会重复爬取同一个用户。下面是我目前的代码。不过,我遇到了一些问题。当我从用户NYTimesKrugman开始爬取时,似乎会重复爬取一些用户。而当我从用户cleversallie开始(这是另一个完全独立的爬取),我就没有重复爬取任何用户。对此现象,任何建议都非常感谢!!!
from BeautifulSoup import BeautifulSoup
import re
import urllib2
import twitter
start_follower = "cleversallie"
depth = 3
U = list()
api = twitter.Api()
def add_to_U(user):
U.append(user)
def user_crawled(user):
L = len(L)
for x in (0, L):
a = L[x]
if a != user:
return False
else:
return True
def turn_to_names(users):
names = list()
for u in users:
x = u.screen_name
names.append(x)
return names
def test_users(users):
new = list()
for u in users:
if (user_crawled):
new.append(u)
return new
def crawl(follower,in_depth): #main method of sorts
if in_depth > 0:
add_to_U(follower)
users = api.GetFriends(follower)
names = turn_to_names(users)
select_users = test_users(names)
for u in select_users[0:5]:
crawl(u, in_depth - 1)
crawl(start_follower, depth)
for u in U:
print u
print("Program done.")
编辑 根据大家的建议(非常感谢大家!),我已经把代码重写成了下面这样:
import re
import urllib2
import twitter
start_follower = "NYTimesKrugman"
depth = 4
searched = set()
api = twitter.Api()
def crawl(follower, in_depth):
if in_depth > 0:
searched.add(follower)
users = api.GetFriends(follower)
names = set([str(u.screen_name) for u in users])
names -= searched
for name in list(names)[0:5]:
crawl(name, in_depth-1)
crawl(start_follower, depth)
for x in searched:
print x
print "Program is completed."
3 个回答
首先要说的是,这段代码里有很多错误,还有很多不是Python的写法。
比如:
def user_crawled(user):
L = len(U)
for x in (0, L):
a = L[x]
if a != user:
return False
else:
return True
这个循环只执行了一次……所以你其实是想要类似于[添加range()函数和检查所有用户的能力。
def user_crawled(user) :
L = len(U)
for x in range(0, L) :
a = L[x]
if a == user :
return True
return False
当然,更符合Python风格的做法是跳过range,直接在循环中迭代。
def user_crawled(user) :
for a in U :
if a == user :
return True
return False
这样简单明了,但在真正的Python中,你应该使用“in”这个操作符,写成:
def user_crawled(user) :
return user in U
再说说Python的一些想法——列表推导式。
def test_user(users) :
return [u for u in users if user_crawled(u)]
这也可以应用到turn_to_names()函数上——留给读者自己去练习。
你给的代码示例根本就不行,不过我猜你的问题可能跟没有创建哈希表(字典?集合?)有关。
你调用了 L = len(L)
,但我看不出哪里有定义过 L。接着你有一个循环,
for x in (0, L):
a = L[x]
if a != user:
return False
else:
return True
这个循环实际上只会执行两次,一次是 x = 0,另一次是 x = L,而 L 就是 len(L)。不用说,当你试图用 L
来索引时,循环会失败。更糟的是,因为你有一个 if-else 语句,无论如何都会返回,而 L 在任何地方都没有定义。
你最有可能想要的是一个集合,先检查用户是否存在,如果不存在就做一些工作,然后再添加用户。这个过程可能看起来像这样:
first_user = 'cleversallie'
crawled_users = {first_user} #set literal
def crawl(user, depth, max_depth):
friends = get_friends(first_user)
for friend in friends:
if friend not in crawled_users and depth < max_depth:
crawled_users.add(friend)
crawl(friend, depth + 1, max_depth)
crawl(first_user, 0, 5)
你可以填充 get friends 里发生的具体内容。这个代码我没有测试过,所以如果有语法错误请见谅,但这应该是一个不错的起点。
你遇到了一个错误,就是把 L 设置成了 len(L),而不是 len(U)。还有一个错误是,如果第一个用户不匹配,你就返回 false,而不是说 每个 用户都不匹配。用 Python 的话,这个功能可以用以下两种方式来写:
def user_crawled(user):
for a in l:
if a == user:
return True
return False
def user_crawled(user):
return user in a
test_users 这个函数使用了一个叫 user_crawled 的变量,但实际上并没有调用它。而且,看起来你做的事情和你想要的正好相反,你希望 new 里装的是未测试的用户,而不是已经测试过的。下面是修正了错误的那个函数:
def test_users(users):
new = list()
for u in users:
if not user_crawled(u):
new.append(u)
return new
如果你打算循环遍历结果,可以使用生成器函数来进一步简化这个函数:
def test_users(users):
for u in users:
if not user_crawled(u):
yield u
你也可以使用 filter 函数:
def test_users(users):
return filter(lambda u: not user_crawled(u), users)
你现在用的是一个列表来存储用户,而不是基于哈希的结构。Python 提供了集合(sets),当你需要一个不能有重复项并且需要快速检查是否存在的列表样结构时,可以使用集合。集合之间还可以相减,来从一个集合中移除另一个集合的所有元素。
另外,你的列表 (U) 是用户,但你却在用用户名来匹配。你需要只存储每个添加用户的用户名。而且,你在程序的某个地方用 u 来表示用户,在另一个地方又用它表示用户名,这样不太好,应该用更有意义的变量名。
Python 的语法糖让你不需要所有这些函数。下面是我会重写整个程序的方式:
import twitter
start_follower = "cleversallie"
MAX_DEPTH = 3
searched = set()
api = twitter.Api()
def crawl(follower, in_depth=MAX_DEPTH):
if in_depth > 0:
searched.add(follower['screen_name'])
users = api.GetFriends(follower)
names = set([u['screen_name'] for u in users])
names -= searched
for name in list(names)[:5]:
crawl(name, in_depth - 1)
crawl(start_follower)
print "\n".join(searched)
print("Program done.")