使用python构建站点地图

2024-06-16 12:39:33 发布

您现在位置:Python中文网/ 问答频道 /正文

尝试使用python构建站点地图

from urllib2 import urlopen
from bs4 import BeautifulSoup
import re

pages = set()
def getLinks (pageUrl):
  global pages
html = urlopen("http://www.mysite.ch" + pageUrl )
bsObj = BeautifulSoup(html,"html.parser")
for link in bsObj.findAll("a",href = re.compile(" ^ (/f/)" )):
    if 'href' in link.attrs:
        if link.attrs['href'] not in pages:
            newPage = link.attrs['href']
            print(newPage)
             pages.add(newPage)
                getLinks(newPage)

获取链接(“”)

我收到以下错误消息:

 File "sitemap builder.py", line 8, in <module>
  html = urlopen("http://www.mysite.ch" + pageUrl )
  NameError: name 'pageUrl' is not defined

如果有人有你的想法,你是受欢迎的(对不起,我同意这是不好的)


Tags: infromimportrehttphtmllinkpages
1条回答
网友
1楼 · 发布于 2024-06-16 12:39:33

好吧,让我们假设您发布的代码片段是正确的,并且格式确实正确。然后,看第8行,这里有错误,清楚地表明

pageUrl

在全局范围内,而它已在的范围内声明

def getLinks (pageUrl):

要么您需要声明pageUrl,要么您需要正确格式化您的代码

相关问题 更多 >