如何使用urllib2删除span内容?

2024-06-16 10:53:32 发布

您现在位置:Python中文网/ 问答频道 /正文

我想围巾所有*.wordpress网址提到的社会书签网站。页面中的URL采用以下格式:

<span class="domain">somedomain.com </span>

下面是我想到的:

import os
import urllib2
import re
from os.path import basename
from urlparse import urlsplit
import time


baseurl = 'https://targetwebsite/pages/'

print baseurl


spage = int(raw_input("Start page?"))
epage = int(raw_input("End page?"))

for p in range (spage, epage):
    url= baseurl+ str(p)
    print url
    urlContent = urllib2.urlopen(url).read()
    #WHAT REGEXP HERE?
    domainUrls = re.findall('span .*.wordpress.com (.*?) ', urlContent)

    try:

    for dUrl in domainUrls:
        print dUrl

    except:
    print "an error occured"
    pass 

我尝试了不同的regexp,但都不起作用。谢谢你的帮助。你知道吗


Tags: fromimportrecomurlinputrawos