python 2和3通用编码检测器
chardet的Python项目详细描述
chardet:通用字符编码检测器
- 检测
- ascii、utf-8、utf-16(2种变体)、utf-32(4种变体)
- big5、gb2312、euc-tw、hz-gb-2312、iso-2022-cn(繁体和简体中文)
- EUC-JP,班次JIS,CP932,ISO-2022-JP(日语)
- EUC-KR、ISO-2022-KR(朝鲜语)
- KOI8-R、MacCyrillic、IBM855、IBM866、ISO-8859-5、Windows-1251(西里尔文)
- ISO-8859-5,Windows-1251(保加利亚语)
- ISO-8859-1,Windows-1252(西欧语言)
- ISO-8859-7,Windows-1253(希腊语)
- ISO-8859-8,Windows-1255(可视和逻辑希伯来语)
- TIS-620(泰语)
注意
我们的ISO-8859-2和Windows-1250(匈牙利)探测器暂时 在我们可以重新训练模型之前禁用。
需要Python2.6、2.7或3.3+。
文档
对于用户,文档现在可以在https://chardet.readthedocs.io/上获得。
命令行工具
chardet附带了一个命令行脚本,它报告一个 或更多文件:
% chardetect somefile someotherfile somefile: windows-1252 with confidence 0.5 someotherfile: ascii with confidence 1.0
关于
这是马克·朝圣者的经典之作的延续。以前,两个 需要维护的版本:一个支持Python2.x,另一个支持 支持Python3.x。我们最近与Ian Cordasco的 charade叉子,现在我们有一个 适用于Python2.6+的一致版本。
maintainer: | Dan Blanchard |
---|