使用python在regex上构建的按扩展名或基本URL分组的链接的输出列表。

2024-06-17 11:47:21 发布

您现在位置:Python中文网/ 问答频道 /正文

这项任务已经完成了一段时间了。正则表达式不是特别难,但是我不太明白如何获得他们想要的输出

您的程序应该:

  • 读取网页的html(已存储为文本文件)
  • 提取所有引用的域并列出与这些域相关的所有完整http地址
  • 提取所有引用的资源类型,并列出与这些资源类型相关的所有完整http*地址。你知道吗

请使用正则表达式和re函数/方法解决此任务。我建议使用“finditer”和“groups”(可能还有其他的可能性)。请不要在re更适合的地方使用字符串函数。“

输出应该是这样的

www.fairfaxmedia.co.nz
    http://www.fairfaxmedia.co.nz
www.essentialmums.co.nz
    http://www.essentialmums.co.nz/
    http://www.essentialmums.co.nz/
    http://www.essentialmums.co.nz/
www.nzfishingnews.co.nz
    http://www.nzfishingnews.co.nz/
www.nzlifeandleisure.co.nz
    http://www.nzlifeandleisure.co.nz/
www.weatherzone.co.nz
    http://www.weatherzone.co.nz/
www.azdirect.co.nz
    http://www.azdirect.co.nz/
i.stuff.co.nz
    http://i.stuff.co.nz/
ico
    http://static.stuff.co.nz/781/3251781.ico
zip
     http://static2.stuff.co.nz/1392867595/static/jwplayer/skin/Modieus.zip
mp4
    http://file2.stuff.co.nz/1394587586/272/9819272.mp4

我真的需要帮助,如何过滤出来的东西,使输出显示这样?你知道吗


Tags: 函数rehttp地址wwwnzco资源类型
1条回答
网友
1楼 · 发布于 2024-06-17 11:47:21
  1. 创建元组列表(关键字、url)
  2. 按关键字排序
  3. 对每个关键字使用itertools.groupby
  4. 对于每个关键字,先打印关键字,然后打印所有URL(这些URL将被打印)。你知道吗

相关问题 更多 >