如何使用正则表达式在Python字符串中删除十六进制值？

>>>columns ['MagX\x00\x00\x00\x08\x01\x008\xe6\x7f', 'MagY\x00\x7f\x00\x00\x00\xee\x0b9\xe6\x7f', 'MagZ\x00\x00\x00\x00\x001', 'AccelerationX', 'AccelerationY', 'AccelerationZ', 'AngularRateX', 'AngularRateY', 'AngularRateZ', 'Temperature']

>>>print columns[0] Mag8� >>>columns[0] 'MagX\x00\x00\x00\x08\x01\x008\xe6\x7f' >>>repr(columns[0]) "'MagX\\x00\\x00\\x00\\x08\\x01\\x008\\xe6\\x7f'" >>>print repr(columns[0]) 'MagX\x00\x00\x00\x08\x01\x008\xe6\x7f'

>>>re.sub('(\w*)\\\\x.*', '\1', columns[0]) 'MagX\x00\x00\x00\x08\x01\x008\xe6\x7f' >>>re.sub('(\w*)\\\\x.*', r'\1', columns[0]) 'MagX\x00\x00\x00\x08\x01\x008\xe6\x7f' >>>re.sub(r'(\w*)\\x.*', '\1', columns[0]) 'MagX\x00\x00\x00\x08\x01\x008\xe6\x7f' >>>re.sub('([A-Za-z]*)\x00', r'\1', columns[0]) 'MagX\x08\x018\xe6\x7f' >>>re.sub('(\w*?)', '\1', columns[0]) '\x01M\x01a\x01g\x01X\x01\x00\x01\x00\x01\x00\x01\x08\x01\x01\x01\x00\x018\x01\xe6\x01\x7f\x01'

3条回答

网友

1楼 · 编辑于 2024-05-15 17:20:39

也可以在不导入re的情况下执行此操作。E、 g.如果您只保留ascii字符：

good_string = ''.join(c if ord(c) < 129 else '?' for c in bad_string)

网友

2楼 · 编辑于 2024-05-15 17:20:39

可以按以下方式删除所有非单词字符：

>>> re.sub(r'[^\w]', '', 'MagX\x00\x00\x00\x08\x01\x008\xe6\x7f')
'MagX8'

正则表达式[^\w]将匹配任何不是字母、数字或下划线的字符。通过使用空字符串替换re.sub中的regex，您将删除字符串中的所有其他字符。

由于可能需要保留其他字符，因此更好的解决方案可能是指定要保留的更大范围的字符（不包括控制字符）。例如：

>>> re.sub(r'[^\x20-\x7e]', '', 'MagX\x00\x00\x00\x08\x01\x008\xe6\x7f')
'MagX8'

或者你可以用等价的[^ -~]替换[^\x20-\x7e]，这取决于你觉得哪个更清楚。

要排除第一个控制字符之后的所有字符，只需添加一个.*，如下所示：

>>> re.sub(r'[^ -~].*', '', 'MagX\x00\x00\x00\x08\x01\x008\xe6\x7f')
'MagX'

网友

3楼 · 编辑于 2024-05-15 17:20:39

它们实际上不在字符串中：您有未转义的控制字符，Python使用十六进制表示法显示这些字符—这就是为什么您在打印值时看到一个不寻常的符号。

您应该能够简单地删除正则表达式中额外的引号级别，但也可以简单地依赖于regexp模块的泛型空白类，该类将匹配除制表符和空格以外的空白字符：

>>> import re
>>> re.sub(r'\s', '?', "foo\x00bar")
'foo\x00bar'
>>> print re.sub(r'\s', '?', "foo\x00bar")
foobar

我用这个来替换所有输入的空格，包括不间断的空格字符，用一个空格：

>>> re.sub(r'[\xa0\s]+', ' ', input_str)

相关问题更多 >

编程相关推荐

热门问题

热门文章