擅长:python、mysql、java
<p>我的回答没有用“刮痧”这个词。如果你觉得这个回答太离题了,请随意标记。在</p>
<p>但我提供的是一个解决方案来帮助你解决更普遍的问题。在</p>
<p>我在分析google的结果时遇到了类似的问题。我不希望在结果页面上出现的任何样板URL都包含在我的最终URL列表中。我也不希望任何google相关查询字符串出现。使用beauthoulsoup、re模块和requests模块,我能够做到这一点。在</p>
<p>对于你的问题,我想说你只需要漂亮的外表。你需要一个过滤域的函数。函数应该有两个参数,reference和被测url。使用re模块,您可以检查测试url基字符串是否与引用字符串相同;如果是,则可以合理地断定它是内部url。在</p>
<p>您应该使用BeautifulSoup来解析包含<code>href</code>的<code><a></code>标记的html。在</p>