用BeautifulSoup解析HTML,没有类(只有段落)

2021-05-16 07:23:38 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图用数字来解析中间位的https://projecteuler.net/problem=8。因为它没有单独的类来选择它,所以我使用

r = requests.get('https://projecteuler.net/problem=8')
data = r.text
soup = BeautifulSoup(data, "lxml")
[para1, para2, para3] = (soup.find_all('p'))

但这会留下很多多余的垃圾(<p> and <br>)。有没有命令把这些都清除掉?有没有比我现在使用的更好的命令来执行拆分?从来没有真正做过太多的网页爬行在Python中。。。你知道吗