Python 支持制表符的 len() 和填充函数

4 投票

4 回答

1128 浏览

提问于 2025-04-15 16:05

Python中的 len() 函数和像 string.ljust() 这样的填充函数并不考虑制表符的宽度，也就是说，它们把 '\t' 当作普通的单字符来处理，不会把 len() 的结果向上调整到最近的制表符宽度的倍数。举个例子：

len('Bear\tnecessities\t')

结果是17，而不是24（也就是4+(8-4)+11+(8-3)）。

假设我还想要一个函数 pad_with_tabs(s)，使得：

pad_with_tabs('Bear', 15) = 'Bear\t\t'

我在寻找这些函数的简单实现——首先要紧凑和易读，其次才是效率。这是一个基础但让人烦恼的问题。

@gnibbler - 你能展示一个纯Python的解决方案吗？即使它的效率低20倍也没关系。

当然，你可以使用 str.expandtabs(TABWIDTH) 来进行转换，但这有点麻烦。

引入数学库来计算 TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) ) 似乎也太复杂了。

我没能想出比下面的更优雅的方案：

TABWIDTH = 8

def pad_with_tabs(s,maxlen):
  s_len = len(s)
  while s_len < maxlen:
    s += '\t'
    s_len += TABWIDTH - (s_len % TABWIDTH)
  return s

而且由于Python字符串是不可变的，除非我们想要把我们的函数添加到字符串模块中作为一个方法，否则我们必须将函数的结果赋值给一个变量：

s = pad_with_tabs(s, ...)

特别是我没能用列表推导式或 string.join(...) 找到干净的解决方案：

''.join([s, '\t' * ntabs])

而且还要处理 len(s) 小于 TABWIDTH 的整数倍，或者 len(s) >= maxlen 的特殊情况。

有没有人能展示更好的 len() 和 pad_with_tabs() 函数？

效率优化列表推导式字符串处理函数制表符数学库填充函数不可变字符串

4 个回答

TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) ) 这个写法其实太复杂了；你可以用更简单的方法得到同样的结果。对于正数 i 和 n，可以这样做：

def round_up_positive_int(i, n):
    return ((i + n - 1) // n) * n

这个方法在我用过的几乎所有编程语言中都能用，只要稍微调整一下就行。

然后你可以这样写 next_pos = round_up_positive_int(len(s), TABWIDTH)

为了让你的代码看起来更优雅一点，不要用

while(s_len < maxlen):

而是用这个：

while s_len < maxlen:

回答于 2025-04-15 由 Python大师

分享举报

我觉得gnibbler的方法在大多数实际情况下是最好的。不过，这里有一个简单的方法（没有考虑换行符等）来计算字符串的长度，而不需要创建一个扩展的副本：

def tab_aware_len(s, tabstop=8):
    pos = -1
    extra_length = 0
    while True:
        pos = s.find('\t', pos+1)
        if pos<0:
            return len(s) + extra_length
        extra_length += tabstop - (pos+extra_length) % tabstop - 1

这个方法可能对一些非常大的字符串或者内存映射文件会有用。下面是一个稍微优化过的填充函数：

def pad_with_tabs(s, max_len, tabstop=8):
    length = tab_aware_len(s, tabstop)
    if length<max_len:
        s += '\t' * ((max_len-1)//tabstop + 1 - length//tabstop)
    return s

回答于 2025-04-15 由 Python大师

分享举报

TABWIDTH=8
def my_len(s):
    return len(s.expandtabs(TABWIDTH))

def pad_with_tabs(s,maxlen):
    return s+"\t"*((maxlen-len(s)-1)/TABWIDTH+1)

我为什么要用 expandtabs()？
因为它很快

$ python -m timeit '"Bear\tnecessities\t".expandtabs()'
1000000 loops, best of 3: 0.602 usec per loop
$ python -m timeit 'for c in "Bear\tnecessities\t":pass'
100000 loops, best of 3: 2.32 usec per loop
$ python -m timeit '[c for c in "Bear\tnecessities\t"]'
100000 loops, best of 3: 4.17 usec per loop
$ python -m timeit 'map(None,"Bear\tnecessities\t")'
100000 loops, best of 3: 2.25 usec per loop

任何对你的字符串进行循环的操作都会慢，因为单单循环的速度大约是 expandtabs 的四倍慢，即使在循环中什么都不做。

$ python -m timeit '"Bear\tnecessities\t".split("\t")'
1000000 loops, best of 3: 0.868 usec per loop

就连简单地按制表符分割字符串也会花更多时间。你还得对分割后的每个项目进行循环，并把它们填充到制表符的位置。

回答于 2025-04-15 由 Python大师

分享举报

Python 支持制表符的 len() 和填充函数

4 个回答

撰写回答