寻找包含字母数字 + "&" 和 ";" 的正则表达式

1 投票

4 回答

485 浏览

提问于 2025-04-11 09:27

这是一个问题：

split=re.compile('\\W*')

这个正则表达式在处理普通单词时效果很好，但有时候我需要这个表达式能够包含像 k&auml;ytt&auml;j&aml;auml; 这样的单词。

我应该在正则表达式中添加什么，才能包含 & 和 ; 这两个字符呢？

正则表达式字符串处理字符集特殊字符

4 个回答

你应该创建一个字符类，里面包含额外的字符。比如：

split=re.compile('[\w&;]+')

这样就可以了。顺便告诉你一些信息：

回答于 2025-04-11 由 Python大师

分享举报

我会把这些实体当作一个整体来看待（因为它们也可以包含数字字符代码），所以可以用下面这个正则表达式：

(\w|&(#(x[0-9a-fA-F]+|[0-9]+)|[a-z]+);)+

这个表达式可以匹配：

/编辑：感谢ΤΖΩΤΖΙΟΥ指出了一个错误。

回答于 2025-04-11 由 Python大师

分享举报

你可能想要反过来解决这个问题，也就是说，找出所有没有空格的字符：

[^ \t\n]*

或者你想要添加额外的字符：

[a-zA-Z0-9&;]*

如果你想要匹配HTML实体，可以试试这样的做法：

(\w+|&\w+;)*

回答于 2025-04-11 由 Python大师

分享举报