Python BeautifulSoup返回错误的html代码

import requests from bs4 import BeautifulSoup page=requests.get('https://www.imdb.com/list/ls040141830/') soup = BeautifulSoup(page.text,'lxml') name = soup.find('h3','lister-item-header') print(name)

<h3 class="lister-item-header"> <span class="lister-item-index unbold text-primary">1.</span> <a href="/title/tt0245429/?ref_=ttls_li_tt">Sen to Chihiro no kamikakushi</a> <span class="lister-item-year text-muted unbold">(2001)</span> </h3>

1条回答

网友

1楼 · 发布于 2024-06-09 05:46:14

似乎如果您从非浏览器客户端访问imdb，imdb会将电影名称翻译成原始语言。您应该能够通过向请求添加Accept-Language头来修复它

import requests
from bs4 import BeautifulSoup
headers = {"Accept-Language": "en-US, en;q=0.5"}
page=requests.get('https://www.imdb.com/list/ls040141830/', headers = headers)
soup = BeautifulSoup(page.text,'lxml')
name = soup.find('h3','lister-item-header')
print(name)

编程相关推荐

html Java spring框架：应用程序上下文不会设置属性
java如何保持已通过电话登录的用户登录
基于LWJGL的二维矩形图像java旋转
java如何将这些图像图标调整到我的棋盘格？
java如何在play框架中禁用http端口？
使用spring4@Transactional时，java事务不起作用
java堆栈由编译器或OS/体系结构创建
用vbscript杀死Java进程
java如何使用ApacheSparkML和两列文本作为特性来训练逻辑回归？
Tomcat上的java ElasticSearch节点客户端无法读取请求数据

相关问题更多 >

编程相关推荐

热门问题

热门文章