TypeError:需要字符串或字节,如obj

2024-06-06 18:46:06 发布

您现在位置:Python中文网/ 问答频道 /正文

我编写了一个script来解析html并只打印文本内容。我想忽略这些标签。但我的程序有问题。我不知道是什么。请帮帮我。

enter image description here

import urllib.request
import re
from bs4 import BeautifulSoup
url = "www.example.com"

def hi():
    dep = urllib.request.urlopen(url)
    soup = BeautifulSoup(dep, 'html.parser')
    for link in soup.find_all('p', string=True):
        result = re.sub(b'<.*?>', "", link)
        print (result)
hi() 

网站link


Tags: 文本importreurl内容requesthtmllink
1条回答
网友
1楼 · 发布于 2024-06-06 18:46:06

我相信,在link变量中有NavigableString

强制将其转换为字符串,如下所示:

for link in soup.find_all('p', string=True):
    result = re.sub(b'<.*?>', "", str(link))
    print (result)

相关问题 更多 >