Python lxml/beautiful soup查找网页上的所有链接

3条回答

网友

1楼 · 编辑于 2024-04-25 23:18:17

使用XPath。比如（不能从这里测试）：

urls = html.xpath('//a/@href')

网友

2楼 · 编辑于 2024-04-25 23:18:17

我想提供另一种基于lxml的解决方案。

该解决方案使用lxml.cssselect中提供的函数

    import urllib
    import lxml.html
    from lxml.cssselect import CSSSelector
    connection = urllib.urlopen('http://www.yourTargetURL/')
    dom =  lxml.html.fromstring(connection.read())
    selAnchor = CSSSelector('a')
    foundElements = selAnchor(dom)
    print [e.get('href') for e in foundElements]

网友

3楼 · 编辑于 2024-04-25 23:18:17

使用^{}，lxml为这个任务提供了一个极好的功能。

This yields (element, attribute, link, pos) for every link [...] in an action, archive, background, cite, classid, codebase, data, href, longdesc, profile, src, usemap, dynsrc, or lowsrc attribute.

编程相关推荐

java将列表a作为从流收集的映射中的值
java SVN Eclipse忽略所有用户的文件夹
@PathVariable类型不匹配的java配置错误页
java在应用程序中使用Oracle数据库需要什么？
java无法确定用户何时为我的自定义异常输入数字小于0的问题
java如何通过软件导航网站？
java将JFace TableViewer添加到SWT表
Java中“field”和“this.field”的区别
java战舰代码不工作
java如何设置可执行IE 11驱动程序的路径

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python lxml/beautiful soup查找网页上的所有链接

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >