编写numpy字符串数组，同时编码并删除所有空格（Python）

2条回答

网友

1楼 · 编辑于 2024-05-14 15:08:42

连接完所有数组元素后，只需按任何空格字符拆分结果字符串，然后重新连接获得的数组：

''.join(''.join(tknstring).split()).encode('unicode_escape')

网友

2楼 · 编辑于 2024-05-14 15:08:42

从您上一个问题（和我的答案）中的字符串数组开始：

arr = np.array(['\tSTART\t  0\n',  '12345 ABCDEFG',  '1A 2B3C',  '\nEN D'])

我们可以使用join将其转换为单个字符串（就像它是一个字符串列表一样）：

^{pr2}$

使用regex我们可以轻松地将所有“空白”替换为空白：

In [1155]: import re
In [1156]: re.sub('\s','',astr)
Out[1156]: 'START012345ABCDEFG1A2B3CEND'

==========

带有[]和引号的显示只是显示数组的标准方式：

In [1157]: print(arr)
['\tSTART\t  0\n' '12345 ABCDEFG' '1A 2B3C' '\nE N D']

它与显示列表的标准方式略有不同（注意逗号）：

In [1158]: print(arr.tolist())
['\tSTART\t  0\n', '12345 ABCDEFG', '1A 2B3C', '\nE N D']

您可能会发现显示str(arr)和repr(arr)字符串很有启发性。每个Python对象都有一种将自身显示为字符串的方式。实际上有两种方式，str和{}。在

==========

unicode转义可以应用于“join”字符串，但看起来re.sub对此没有任何作用。我们必须研究re文档，看看是否有关于字节字符串的工作：

In [1164]: bstr=''.join(arr).encode('unicode_escape')
In [1165]: bstr
Out[1165]: b'\\tSTART\\t  0\\n12345 ABCDEFG1A 2B3C\\nE N D'
In [1166]: re.sub(b'\s',b'',bstr)
Out[1166]: b'\\tSTART\\t0\\n12345ABCDEFG1A2B3C\\nEND'

但是如果你在手之前去掉特殊字符，你可以在之后应用编码。在

In [1168]: re.sub('\s','',astr).encode('unicode_escape')
Out[1168]: b'START012345ABCDEFG1A2B3CEND'

此re.sub也可以使用普通编码：

In [1177]: re.sub(b'\s',b'',astr.encode())
Out[1177]: b'START012345ABCDEFG1A2B3CEND'

=============

split()也起作用，因为默认拆分是“空白”（类似于re.split('\s+',astr)）。所以这些变化起作用了：

encode并与b''连接：

In [1180]: b''.join(astr.encode().split())
Out[1180]: b'START012345ABCDEFG1A2B3CEND'

使用escape，split不再识别这些特殊字符

In [1181]: b''.join(astr.encode('unicode_escape').split())
Out[1181]: b'\\tSTART\\t0\\n12345ABCDEFG1A2B3C\\nEND'

您也可以在删除空白后进行编码。您可以添加escape，但它现在没有任何用途。在

In [1183]: (''.join(astr.split())).encode()
Out[1183]: b'START012345ABCDEFG1A2B3CEND'

相关问题更多 >

编程相关推荐

热门问题

热门文章