对于EBCDIC（CP500）到Latin1转换器，这是一种合理的方法吗？

# char mapping lookup table EBCDIC_TO_LATIN1 = { 0xC1:'41', # A 0xC2:'42', # B # and so on... } BUFFER_SIZE = 1024 * 64 ebd_file = file(sys.argv[1], 'rb') latin1_file = file(sys.argv[2], 'wb') buffer = ebd_file.read(BUFFER_SIZE) while buffer: latin1_file.write(ebd2latin1(buffer)) buffer = ebd_file.read(BUFFER_SIZE) ebd_file.close() latin1_file.close()

3条回答

网友

1楼 · 编辑于 2024-06-01 02:33:00

EBCDIC 500，又名代码页500，是Python编码之一，虽然你链接到cp1047，但它没有。你在用哪一个，真的？不管怎样，这对cp500（或者你拥有的任何其他编码）都有效。

from __future__ import with_statement
import sys
from contextlib import nested

BUFFER_SIZE = 16384
with nested(open(sys.argv[1], 'rb'), open(sys.argv[2], 'wb')) as (infile, outfile):

    while True:
        buffer = infile.read(BUFFER_SIZE)
        if not buffer:
            break
        outfile.write(buffer.decode('cp500').encode('latin1'))

这样你就不需要自己跟踪映射了。

网友

2楼 · 编辑于 2024-06-01 02:33:00

虽然这可能不再有助于原始海报，但不久前我发布了一个Python2.6+和3.2+的包，其中添加了大多数西方8位主机编解码器，包括CP1047（法语）和CP1141（德语）：https://pypi.python.org/pypi/ebcdic。只需import ebcdic添加编解码器，然后使用open(..., encoding='cp1047')读取或写入文件。

网友

3楼 · 编辑于 2024-06-01 02:33:00

如果正确设置了表格，则只需执行以下操作：

translated_chars = ebcdic.translate(EBCDIC_TO_LATIN1)

其中，ebcdic包含EBCDIC字符，EBCDIC_TO_LATIN1是一个256个字符的字符串，它将每个EBCDIC字符映射到它的拉丁-1等效字符。EBCDIC_TO_LATIN1中的字符是实际的二进制值，而不是它们的十六进制表示。例如，如果使用代码页500，则EBCDIC_TO_LATIN1的前16个字节将是

'\x00\x01\x02\x03\x37\x2D\x2E\x2F\x16\x05\x25\x0B\x0C\x0D\x0E\x0F'

使用this reference。

相关问题更多 >

编程相关推荐

热门问题

热门文章