如何在正则表达式周围选择整个实体而不首先拆分字符串？

1条回答

网友

1楼 · 发布于 2024-06-16 11:10:35

是的，您所说的内容称为正向lookback并使用(?<=...)，省略号应该替换为您要跳过的内容。你知道吗

例如，如果您想在https://twitter.com/username/status/ID中选择username后面的内容，只需使用

(?<=https:\/\/twitter\.com\/username\/).*

你会得到status/ID，就像你看到的live demo。你知道吗

在本例中，我必须按照Regex规范的要求，使用反斜杠转义斜杠/；我还使用Kleene star operator，即星号来匹配.（任何字符）的任何出现，就像您所做的那样。你知道吗

正向lookback组合的作用是在光标的当前位置之前指定一些强制文本；换句话说，它将光标放在您输入的表达式之后（如果所述文本存在）。你知道吗

当然，这在您的例子中是不够的，因为username不是固定字符串，而是可变字符串。这可能是一个额外的要求，因为lookbehind不适用于可变长度。所以你可以跳过www.twitter.com/

(?<=https:\/\/twitter\.com\/).*

然后，通过Python创建一个子字符串

currentText = "username/status/ID"
result = currentText.split("/",1)[1] # returns status/ID

在这个demo（单击“Execute”）中测试它；这个question的答案中简单解释了它的工作原理（简而言之，您只需在第一个斜杠字符处拆分字符串）。你知道吗

作为旁注，URL中不允许空白/空格，如有必要，通常编码为%20或+（参见this答案）。换句话说，你得到的每一个网址都可以在处理前安全地去掉空格，所以。。。他们为什么不这么做？你知道吗