如何使用pythonversion3x从网站读取html正文

import urllib.request import os,sys,re,datetime fp = urllib.request.urlopen("http://www.python.org") mybytes = fp.read() mystr = mybytes.decode(encoding=sys.stdout.encoding) fp.close() from bs4 import BeautifulSoup soup = BeautifulSoup(str(mystr), 'html.parser') mystr = soup; print(mystr.get_text())

2条回答

网友

1楼 · 编辑于 2024-04-19 14:35:27

如果您使用requests库，您可以避免以下复杂情况：）

import requests
fp = requests.get("http://www.python.org")
mystr = fp.text

from bs4 import BeautifulSoup
soup = BeautifulSoup(mystr, 'html.parser')
mystr = soup;
print(mystr.get_text())

网友

2楼 · 编辑于 2024-04-19 14:35:27

BeautifulSoup非常乐意使用urlopen返回的类似文件的对象：

from urllib.request import urlopen
from bs4 import BeautifulSoup

with urlopen("...") as website:
    soup = BeautifulSoup(website)

print(soup.prettify())

编程相关推荐

java中STDIN的不同方式是什么
java有没有办法让程序将文本文件中的“\n”识别为换行代码？
java JList不显示项目
java试图反转句子中的字符
infinte列表中的java搜索策略
java使用motionevents模拟鼠标单击
java使用Spring@Cacheable和@PostFilter
java如何使用枚举名获取枚举id
Java无法找到并加载CSV文件
CyclicBarrier上的java可见性同步？

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用pythonversion3x从网站读取html正文

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >