在Python中检测字节顺序标记（BOM）

1条回答

网友

1楼 · 发布于 2024-06-02 08:09:03

简单的答案是：读取前4个字节并查看它们

with open("utf32le.file", "rb") as file:
    beginning = file.read(4)
    # The order of these if-statements is important
    # otherwise UTF32 LE may be detected as UTF16 LE as well
    if beginning == b'\x00\x00\xfe\xff':
        print("UTF-32 BE")
    elif beginning == b'\xff\xfe\x00\x00':
        print("UTF-32 LE")
    elif beginning[0:3] == b'\xef\xbb\xbf':
        print("UTF-8")
    elif beginning[0:2] == b'\xff\xfe':
        print("UTF-16 LE")
    elif beginning[0:2] == b'\xfe\xff':
        print("UTF-16 BE")
    else:
        print("Unknown or no BOM")

不那么简单的答案是：

可能有些二进制文件似乎有BOM表，但它们仍然可能只是二进制文件，其中的数据意外地看起来像BOM表

除此之外，您通常也可以将没有BOM表的文本文件视为UTF-8

编程相关推荐

Spring启动测试中的java MockBean注释导致NonuniqueBeandDefinitionException
java Spring Hateoas调试模板不能为null
递归培根游戏Java程序？
java在Android中保存少量数据（对象）的最简单方法是什么？
异常处理Java中finally块的要点是什么？
是java。util。货币真的是工厂方法模式吗？
java如何输入字符以停止循环
java如何对流的某些部分执行缩减操作
java new Gson（）。单例类的toJson（object）返回null
java Itext泰米尔字体显示不正确

相关问题更多 >

编程相关推荐

热门问题

热门文章

在Python中检测字节顺序标记（BOM）

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >