我编写了一个script来解析html并只打印文本内容。我想忽略这些标签。但我的程序有问题。我不知道是什么。请帮帮我。
import urllib.request
import re
from bs4 import BeautifulSoup
url = "www.example.com"
def hi():
dep = urllib.request.urlopen(url)
soup = BeautifulSoup(dep, 'html.parser')
for link in soup.find_all('p', string=True):
result = re.sub(b'<.*?>', "", link)
print (result)
hi()
网站link。
我相信,在
link
变量中有NavigableString
。强制将其转换为字符串,如下所示:
相关问题 更多 >
编程相关推荐