如何使用urllib2删除span内容？

2024-06-16 10:53:32 发布

男 | 程序猿一只，喜欢编程写python代码。

我想围巾所有*.wordpress网址提到的社会书签网站。页面中的URL采用以下格式：

<span class="domain">somedomain.com </span>

下面是我想到的：

import os
import urllib2
import re
from os.path import basename
from urlparse import urlsplit
import time


baseurl = 'https://targetwebsite/pages/'

print baseurl


spage = int(raw_input("Start page?"))
epage = int(raw_input("End page?"))

for p in range (spage, epage):
    url= baseurl+ str(p)
    print url
    urlContent = urllib2.urlopen(url).read()
    #WHAT REGEXP HERE?
    domainUrls = re.findall('span .*.wordpress.com (.*?) ', urlContent)

    try:

    for dUrl in domainUrls:
        print dUrl

    except:
    print "an error occured"
    pass

我尝试了不同的regexp，但都不起作用。谢谢你的帮助。你知道吗

Tags： from import re com url input raw os

1条回答

网友

1楼 · 发布于 2024-06-16 10:53:32

松散的回答是公正的

([^ ]*\.)?wordpress.com(\/[^ ]*)?

如何使用urllib2删除span内容？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用urllib2删除span内容？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >