我想扫描我的特定链接论坛。所有链接都是这样:http://www.vbulletinxyz-forum.tld/forum/showthread.php?t=17590
。只有链接末尾的线程编号更改。你知道吗
目前我正在使用以下代码,但它只适用于一个特定的网址,而不是论坛的所有线程。我要如何更改代码才能让它扫描所有线程?你知道吗
import urllib
mypath = "http://vbulletin-forumxyz.tld/forum/showthread.php?t=1"
mylines = urllib.urlopen(mypath).readlines()
for item in mylines:
if "http://specific.tld" in item:
print item[item.index("http://specific.tld"):]
这就是它的工作原理,它检查从0到400000的线程。你知道吗
(1)易于实现,但可能并非所有线程号(t)都存在。所以会有很多404请求。你知道吗
(2)看看scrapy
更新(1):原则上可以这样做。请注意,a)您提供的url是不可访问的(虚拟的),所以我没有测试它,b)它的python3.X
相关问题 更多 >
编程相关推荐