清理并生成u

2条回答

网友

1楼 · 编辑于 2024-04-25 20:28:26

如果只想匹配绝对URL，最简单的方法是使用CSS selector：

soup.select("a[href^=http]")

这里^=表示“以开头”。在

如果要定位所有链接并用相对URL生成绝对URL，请使用^{}：

^{pr2}$

注意，如果URL已经是绝对的，urljoin()将保持原样。在

网友

2楼 · 编辑于 2024-04-25 20:28:26

使用filter()和lambdas。在

urlList = filter(lambda aTag: aTag['href'].startswith('http'), soup('a'))

应该会成功的。在

简而言之，检查链接的“href”属性是否以字符串“http”开头。在

如果要从相对URL重新创建绝对URL，可以执行以下操作：

urlThatCurrentlyScraping = 'http://bing.com/something/...'
for link in soup('a'):
  if not link['href'].startswith('http'):
    fixedLinkHref = urlThatCurrentlyScraping + link['href']
  else:
    fixedLinkHref = link['href']
  # do something

编程相关推荐

java JDBC URL DB2编码字符
java远程jprofiler集成
Java8中日期对象的after函数问题
Java Swing GlassPane拖动性能
Java中的递归导致堆栈溢出错误
JavaJersey客户端3。Android上的x
java Exchange日历，创建约会和唯一ID
java将键盘布局从AZERTY转换为QWERTY
java无法反序列化启动数组JSON/Spring MVC之外的对象实例
java创建一个Word（.doc）文件，将其转换为PDF和HTML，无需打开Office端口

相关问题更多 >

编程相关推荐

热门问题

热门文章

清理并生成u

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >