无法从html页读取行

2024-05-20 22:54:21 发布

男 | 程序猿一只，喜欢编程写python代码。

我试图从一个特定的网站削减时间格式。regex正在工作（使用regex tester进行了尝试，并且工作正常），但是当我尝试用Python运行代码时，我得到：

import urllib,re

sock = urllib.urlopen("http://www.wolframalpha.com/input/?i=time")
htmlSource = sock.read()
sock.close()
ips = re.findall( r'([01]?[0-9]{1}|2[0-3]{1}):[0-5]{1}[0-9]{1}:[0-5]{1}[0-9]{1}',htmlSource)
print ips

结果是：

>>>
['7', '4']
>>>

regextester.com上的时间用红色标记，我想按以下格式提取时间：xx:xx:xx（24小时）。你知道吗

为什么会这样？谢谢您！你知道吗

Tags：代码 import re com 网站格式时间 urllib

1条回答

网友

1楼 · 发布于 2024-05-20 22:54:21

regexp中有一些多余的量词（那些{1}）。你可以移除它们。你知道吗

另一件事是re.findall只返回捕获的时间。将第一个捕获更改为非caturing组(?: ... )，并捕获整个正则表达式：

((?:[01]?[0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9])

我想应该是这样的。你知道吗

无法从html页读取行

相关问题更多 >

编程相关推荐

热门问题

热门文章

无法从html页读取行

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >