如何从bs4对象解码utf8文本？

from bs4 import BeautifulSoup import requests url = "https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/discursos" r = requests.get(url) print(f"The encoding is {r.encoding}") soup = BeautifulSoup(r.text, 'html.parser') lista_de_discursos = soup.find_all(name="a", attrs={"class": "summary"}) for x in lista_de_discursos: print(x.text) print("---")

The encoding is utf-8 Discurso do Presidente da Rep�blica, Jair Bolsonaro, durante a apresenta��o do Projeto da Ponte de acesso ao Bairro Boa Esperan�a e ao Quilombo S�o Pedro - Eldorado/SP --- Discurso do Presidente da Rep�blica, Jair Bolsonaro, durante a Apresenta��o de Projeto da Ponte sobre o Rio Pariquera-A�u - Pariquera-A�u/SP --- Discurso do Presidente da Rep�blica, Jair Bolsonaro, durante entrega do Disc�bolo de Ouro - Pal�cio do Planalto

2条回答

网友

1楼 · 编辑于 2024-05-23 17:45:28

此功能取决于环境。
- 原始代码在python控制台中打印字符，而不是在JupyterLab中
- 正如Henrique Branco所指出的，在VS代码中，这是Console或Terminal输出之间的差异
将r.text更改为r.content.decode('utf-8')
或者，正如Mark Ransom所评论的，repr(x.text)也可以工作
不同之处在于，打印时soup对象中的所有内容都被解码，而输出str则被解码

url = "https://www.gov.br/planalto/pt-br/acompanhe-o-planalto/discursos"

r = requests.get(url)
print(f"The encoding is {r.encoding}")
soup = BeautifulSoup(r.content.decode('utf-8'), 'html.parser')

lista_de_discursos = soup.find_all(name="a", attrs={"class": "summary"})

for x in lista_de_discursos:
    print(x.text)
    print(" -")

[out]:
The encoding is utf-8
Discurso do Presidente da República, Jair Bolsonaro, durante a apresentação do Projeto da Ponte de acesso ao Bairro Boa Esperança e ao Quilombo São Pedro - Eldorado/SP
 -
Discurso do Presidente da República, Jair Bolsonaro, durante a Apresentação de Projeto da Ponte sobre o Rio Pariquera-Açu - Pariquera-Açu/SP
 -
Discurso do Presidente da República, Jair Bolsonaro, durante entrega do Discóbolo de Ouro - Palácio do Planalto
 -
Discurso do Presidente da República, Jair Bolsonaro, durante a Homenagem póstuma ao músico Pinto do Acordeon - Brasilia/DF
 -
Discurso do Presidente da República, Jair Bolsonaro, durante o Lançamento do Programa Norte Conectado - Palácio do Planalto
 -
Discurso do Presidente da República, Jair Bolsonaro, durante a  Solenidade de inauguração da Usina de Energia Fotovoltaica -  Caldas Novas/GO

环境/软件包

jupyterlab 2.2.6
Windows 10
beautifulsoup4 4.9.1
requests 2.24.0
python 3.8.5

网友

2楼 · 编辑于 2024-05-23 17:45:28

这听起来可能有点奇怪，但这样打印的唯一原因是因为我使用的是VS代码的输出。奇怪的行为，但问题解决了

VS代码中的输出

终端在VS代码中

问题一解决，我就认为这个问题已经回答了

谢谢

环境/软件包

相关问题更多 >

编程相关推荐

热门问题

热门文章