Regex查找并匹配&amp（两种情况都存在和不存在）并清除i

s = """HTML source """ #https://ipinfo.io/AS7018 [This is the webpage i am trying to scrap] match = re.search(r'<h3 class="font-semibold m-0 t-xs-24">(?P<ASN_CODE>AS\d+) (?P<NAME>[\w.\s]+)</h3>', s) if match: asn_code, name = match.groups() print(asn_code) print(name)

1条回答

网友

1楼 · 发布于 2024-05-23 20:43:00

不要试图用正则表达式解析HTML。使用合适的HTML解析器。下面是一个使用标准库中的BeautifulSoup的例子：

#!/usr/bin/env python3
import bs4
import requests


def main():
    response = requests.get('https://ipinfo.io/AS7018')
    soup = bs4.BeautifulSoup(response.content, 'html.parser')
    asn_code, _, name = soup.h3.text.partition(' ')
    print('ASN code:', asn_code, '  Company name:', name)


if __name__ == '__main__':
    main()

编程相关推荐

javascript生成两点之间的固定纬度和经度
java为什么不删除并重命名文件？
求数组的和
java在漂亮面孔中使用正则表达式
SOAP（java）中的Hello World。如何修复它？
java I获取应用程序生成错误，配置为“”的资源“attr/arc_position”的值重复
云基础环境中的Java SFTP客户端应用
谷歌应用程序引擎Java查询日期不正常？
java使用cancel按钮对JOptionPane InputDialog循环进行转义
java数字格式总是返回异常

相关问题更多 >

编程相关推荐

热门问题

热门文章

Regex查找并匹配&amp（两种情况都存在和不存在）并清除i

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >