正则表达式和Unicode

config['valid_filename_chars'] = """0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!@£$%^&*()_+=-[]{}"'.,<>`~? """ config['valid_filename_chars_regex'] = re.escape(config['valid_filename_chars']) config['name_parse'] = [ # foo_[s01]_[e01] re.compile('''^([%s]+?)[ \._\-]\[[Ss]([0-9]+?)\]_\[[Ee]([0-9]+?)\]?[^\\/]*$'''% (config['valid_filename_chars_regex'])), # foo.1x09* re.compile('''^([%s]+?)[ \._\-]\[?([0-9]+)x([0-9]+)[^\\/]*$''' % (config['valid_filename_chars_regex'])), # foo.s01.e01, foo.s01_e01 re.compile('''^([%s]+?)[ \._\-][Ss]([0-9]+)[\.\- ]?[Ee]([0-9]+)[^\\/]*$''' % (config['valid_filename_chars_regex'])), # foo.103* re.compile('''^([%s]+)[ \._\-]([0-9]{1})([0-9]{2})[\._ -][^\\/]*$''' % (config['valid_filename_chars_regex'])), # foo.0103* re.compile('''^([%s]+)[ \._\-]([0-9]{2})([0-9]{2,3})[\._ -][^\\/]*$''' % (config['valid_filename_chars_regex'])), ]

3条回答

网友

1楼 · 编辑于 2024-05-31 23:52:51

在掌握Jeffrey Friedl（好书）中的正则表达式时，我们提到可以使用与unicode中的字母匹配的\p{Letter}。

网友

2楼 · 编辑于 2024-05-31 23:52:51

使用子范围[\u0000-\uFFFF]来获得所需内容。

您还可以使用re.UNICODE编译标志。The docs假设设置了UNICODE，则\w将匹配字符[0-9_]以及Unicode字符属性数据库中分类为字母数字的字符。

另请参见http://coding.derkeiler.com/Archive/Python/comp.lang.python/2004-05/2560.html。

网友

3楼 · 编辑于 2024-05-31 23:52:51

Python的re模块不支持\p{Letter}或\X。

相关问题更多 >

编程相关推荐

热门问题

热门文章