我正在编写一个python程序,它需要能够在另一个站点上镜像内容。在
下载html之后,我需要用完整的链接(例如<img src='/foo.png'>
)替换所有相关链接(例如<img src='http://thesitewherethepageisfrom.com/foo.png'>
)。在
我还需要替换所有相关的文件路径。例如,如果我下载了http://example.com/bar/foo.php
,它有{<img src='http://example.com/bar/foobar.jpg'>
代替它,而不是{
我当前正在使用正则表达式:
((?<=src=[\"'])|(?<=href=.))(?!(http(s|)(:|%3[Aa])))[0-9A-Za-z%?&#_=+.~]([0-9A-Za-z%?&#_=+./~])*(?=['\"])
以及
^{pr2}$对于不是完整链接的相对和完整文件路径。python是否为每个regex数学提供了一种预加文本的方法?我需要能够遍历匹配项并在每个匹配项前面加上http://example.com
或{
目前没有回答
相关问题 更多 >
编程相关推荐