我需要匹配HTML文档文本中的正则表达式。 1) html格式良好,并且 2) 没有不是html标记的“<;>;”符号。 我的问题是,我需要知道原始html文档中匹配项的索引,因为我需要将匹配项转换为原始文档中的链接。这意味着我不能仅仅使用beautiful soup或其他解析器来提取文本。因为解析结果中的匹配项将具有不同的索引。我也不能只在html文档上进行匹配,因为有些标记确实出现在单词的中间,破坏了regex。我需要一种方法: 1) 将已解析文档中匹配项的索引映射到原始文档中的位置,或者, 2) 让我的正则表达式忽略任何标记并继续搜索。你知道吗
我正在使用python re-flavor。 我看到过这个问题:skip over HTML tags in Regular Expression patterns但它是不同的,因为OP希望忽略标记上下文中的空格。那里的答案没有给我一个解决办法。你知道吗
下面是一个(非常简单的)例子。有没有办法匹配:
r'(hello world)'
在字符串中:
string = "<p>hell</p>o world"
在哪里匹配.开始会返回3吗?你知道吗
谢谢!你知道吗
好吧,我自己想出了一个解决办法:
这将产生:
相关问题 更多 >
编程相关推荐