无法从html页读取行

2024-05-20 22:54:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我试图从一个特定的网站削减时间格式。regex正在工作(使用regex tester进行了尝试,并且工作正常),但是当我尝试用Python运行代码时,我得到:

import urllib,re

sock = urllib.urlopen("http://www.wolframalpha.com/input/?i=time")
htmlSource = sock.read()
sock.close()
ips = re.findall( r'([01]?[0-9]{1}|2[0-3]{1}):[0-5]{1}[0-9]{1}:[0-5]{1}[0-9]{1}',htmlSource)
print ips

结果是:

>>>
['7', '4']
>>>

regextester.com上的时间用红色标记,我想按以下格式提取时间:xx:xx:xx(24小时)。你知道吗

为什么会这样?谢谢您!你知道吗


Tags: 代码importrecom网站格式时间urllib
1条回答
网友
1楼 · 发布于 2024-05-20 22:54:21

regexp中有一些多余的量词(那些{1})。你可以移除它们。你知道吗

另一件事是re.findall只返回捕获的时间。将第一个捕获更改为非caturing组(?: ... ),并捕获整个正则表达式:

((?:[01]?[0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9])

我想应该是这样的。你知道吗

相关问题 更多 >