使用Beautiful Soup和urllib进行网页抓取时出现的问题

2024-05-23 21:51:01 发布

您现在位置:Python中文网/ 问答频道 /正文

你好

我在英超联赛网站上做一些搜索,我遇到了以下问题。当我运行此命令时:

my_url = 'https://www.premierleague.com/match/{}'.format(i)
client = urlopen(my_url)
page_html = client.read()

页面的这一特定部分返回如下所示:

<div class="matchDate renderMatchDateContainer" data-kickoff="1583784000000"></div>

当它应该是这样的时候,正如我在浏览器上看到的:

<div class="matchDate renderMatchDateContainer" data-kickoff="1583784000000">Mon 9 Mar 2020</div>

You can also see it here

因此,我无法删除日期“2020年3月9日星期一”

有人能帮忙吗?谢谢


Tags: https命令divcomclienturldata网站
1条回答
网友
1楼 · 发布于 2024-05-23 21:51:01

{}中的{}代表2020/03/09,你在用JavaScript计算吗? 为什么不尝试转换这些数据

num = 1583685000000
s = str(num)
date = int(s[0:-3])
d = datetime.date.fromtimestamp(date)
d.strftime('%d/%m/%y')

‘09/03/20’

相关问题 更多 >