Python前置到regex匹配

2024-04-18 00:29:53 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在编写一个python程序,它需要能够在另一个站点上镜像内容。在

下载html之后,我需要用完整的链接(例如<img src='/foo.png'>)替换所有相关链接(例如<img src='http://thesitewherethepageisfrom.com/foo.png'>)。在

我还需要替换所有相关的文件路径。例如,如果我下载了http://example.com/bar/foo.php,它有{},我实际上需要用<img src='http://example.com/bar/foobar.jpg'>代替它,而不是{}。在

我当前正在使用正则表达式:

((?<=src=[\"'])|(?<=href=.))(?!(http(s|)(:|%3[Aa])))[0-9A-Za-z%?&#_=+.~]([0-9A-Za-z%?&#_=+./~])*(?=['\"])

以及

^{pr2}$

对于不是完整链接的相对和完整文件路径。python是否为每个regex数学提供了一种预加文本的方法?我需要能够遍历匹配项并在每个匹配项前面加上http://example.com或{}。在


Tags: 文件路径程序srccomhttpimg镜像

热门问题