我正在用Scrapy编写一个网络爬虫,结果得到一组url,比如:[虚拟url] *http://matrix.com/en/Zion
http://matrix.com/en/Machine_World
http://matrix.com/en/Matrix:Banner_guidelines
http://matrix.com/en/File:Link_Banner.jpg
http://matrix.com/wiki/en/index.php*
在scrapy的规则中,我想添加一个regex,它只允许“http://matrix.com/en/Machine_World”或“http://matrix.com/en/Zion”类型的url i、 e不允许URL包含集合“http://matrix.com/en/<;[a-zA-Z,\]>;”之外的任何内容。你知道吗
约束条件:
建议正则表达式工作的可复制证据:
数据
你试过在正则表达式中使用这个字符类吗?看起来你没有加下划线。你知道吗
试试看
加号的意思是“一个或多个”——与{1,}相同,只是一个很好的速记:)
如果要排除带有.php或.jpg的项,可以在末尾添加$符号,如下所示:
$表示“行尾”,这意味着您的匹配序列必须运行到行尾。由于字符类中不包含句号,因此将排除这些选项
如果有用的话告诉我, 艾略特
相关问题 更多 >
编程相关推荐