如何使str.translate与Unicode字符串一起工作？

import string def translate_non_alphanumerics(to_translate, translate_to='_'): not_letters_or_digits = u'!"#%\'()*+,-./:;<=>?@[\]^_`{|}~' translate_table = string.maketrans(not_letters_or_digits, translate_to *len(not_letters_or_digits)) return to_translate.translate(translate_table)

>>> translate_non_alphanumerics(u'<foo>!') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "<stdin>", line 5, in translate_non_alphanumerics TypeError: character mapping must return integer, None or unicode

3条回答

网友

1楼 · 编辑于 2024-05-23 15:05:08

我想出了以下我的原始函数和Mike版本的组合，它可以使用Unicode和ASCII字符串：

def translate_non_alphanumerics(to_translate, translate_to=u'_'):
    not_letters_or_digits = u'!"#%\'()*+,-./:;<=>?@[\]^_`{|}~'
    if isinstance(to_translate, unicode):
        translate_table = dict((ord(char), unicode(translate_to))
                               for char in not_letters_or_digits)
    else:
        assert isinstance(to_translate, str)
        translate_table = string.maketrans(not_letters_or_digits,
                                           translate_to
                                              *len(not_letters_or_digits))
    return to_translate.translate(translate_table)

更新：“强制”translate_to为unicode的unicodetranslate_table。谢谢迈克。

网友

2楼 · 编辑于 2024-05-23 15:05:08

Unicode版本的translate需要从Unicode序数（可以用^{}检索单个字符）到Unicode序数的映射。如果要删除字符，则映射到None。

我更改了您的函数以构建一个dict，将每个字符的序号映射到要转换为的序号：

def translate_non_alphanumerics(to_translate, translate_to=u'_'):
    not_letters_or_digits = u'!"#%\'()*+,-./:;<=>?@[\]^_`{|}~'
    translate_table = dict((ord(char), translate_to) for char in not_letters_or_digits)
    return to_translate.translate(translate_table)

>>> translate_non_alphanumerics(u'<foo>!')
u'_foo__'

编辑：结果是转换映射必须从Unicode序号（通过ord）映射到另一个Unicode序号、Unicode字符串或无（要删除）。因此，我将translate_to的默认值更改为Unicode文本。例如：

>>> translate_non_alphanumerics(u'<foo>!', u'bad')
u'badfoobadbad'

网友

3楼 · 编辑于 2024-05-23 15:05:08

在这个版本中，你可以相对地把一个人的信写给另一个人

def trans(to_translate):
    tabin = u'привет'
    tabout = u'тевирп'
    tabin = [ord(char) for char in tabin]
    translate_table = dict(zip(tabin, tabout))
    return to_translate.translate(translate_table)

相关问题更多 >

编程相关推荐

热门问题

热门文章