我正在使用python3.5和re
模块开发scraper/webcrawler,其中一个函数需要检索YouTube频道的URL。我将使用以下代码部分(包括正则表达式的匹配)来实现这一点:
href = re.compile("(/user/|/channel/)(.+)")
它应该返回/user/username
或/channel/channelname
之类的内容。它在很大程度上成功地做到了这一点,但是它时不时地获取一种URL类型,其中包含更多的信息,比如/user/username/videos?view=60
或者username/
部分后面的其他信息。你知道吗
为了解决这个问题,我将上面的代码重写为
href = re.compile("(/user/|/channel/)(?!(videos?view=60)(.+)")
以及其他没有成功的变化。我如何重写我的代码,使它获取的URL不包括videos?view=60
在URL的任何地方?你知道吗
对特定的regex模式使用以下方法:
我用这种方法,它似乎做你想要的。你知道吗
希望这有帮助!你知道吗
相关问题 更多 >
编程相关推荐