使用python在regex上构建的按扩展名或基本URL分组的链接的输出列表。

2024-06-17 11:47:21 发布

您现在位置：Python中文网/ 问答频道 /正文

9891

网友

男 | 程序猿一只，喜欢编程写python代码。

这项任务已经完成了一段时间了。正则表达式不是特别难，但是我不太明白如何获得他们想要的输出

您的程序应该：

读取网页的html（已存储为文本文件）
提取所有引用的域并列出与这些域相关的所有完整http地址
提取所有引用的资源类型，并列出与这些资源类型相关的所有完整http*地址。你知道吗

请使用正则表达式和re函数/方法解决此任务。我建议使用“finditer”和“groups”（可能还有其他的可能性）。请不要在re更适合的地方使用字符串函数。“

输出应该是这样的

www.fairfaxmedia.co.nz
    http://www.fairfaxmedia.co.nz
www.essentialmums.co.nz
    http://www.essentialmums.co.nz/
    http://www.essentialmums.co.nz/
    http://www.essentialmums.co.nz/
www.nzfishingnews.co.nz
    http://www.nzfishingnews.co.nz/
www.nzlifeandleisure.co.nz
    http://www.nzlifeandleisure.co.nz/
www.weatherzone.co.nz
    http://www.weatherzone.co.nz/
www.azdirect.co.nz
    http://www.azdirect.co.nz/
i.stuff.co.nz
    http://i.stuff.co.nz/
ico
    http://static.stuff.co.nz/781/3251781.ico
zip
     http://static2.stuff.co.nz/1392867595/static/jwplayer/skin/Modieus.zip
mp4
    http://file2.stuff.co.nz/1394587586/272/9819272.mp4

我真的需要帮助，如何过滤出来的东西，使输出显示这样？你知道吗

Tags：函数 re http 地址 www nz co 资源类型

1条回答

网友
1楼 · 发布于 2024-06-17 11:47:21

创建元组列表（关键字、url）
按关键字排序
对每个关键字使用itertools.groupby组
对于每个关键字，先打印关键字，然后打印所有URL（这些URL将被打印）。你知道吗

使用python在regex上构建的按扩展名或基本URL分组的链接的输出列表。

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用python在regex上构建的按扩展名或基本URL分组的链接的输出列表。

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >