从凌乱的电子表格中读取表格。
fuzzytable的Python项目详细描述
fuzzytable是一组从混乱的电子表格中提取表格数据的工具。在
这个库满足了依赖于许多人处理过的电子表格数据的项目的需要。 标题经常丢失或拼写错误。 数据格式不正确。 表格在错误的工作表上,或者您不知道正确的电子表格名称。等。。。在
fuzzytable允许您快速提取数据,而不是提前费力地对数据进行质量控制。 提取后,您可以检查FuzzyTable属性,例如确定 找到了哪些字段,以及所需标头与实际标头的匹配程度。在
安装
pip install fuzzytable
示例用法
这是一个轻松愉快的演示。要使用csv模块读取这个凌乱的文件,我们必须首先:
- 删除第1行和第2行。在
- 删除A列和B列
- 重命名标题。在
A | B | C | D | E |
---|---|---|---|---|
These | are | not | the | droids |
you | are | looking | for. | He |
can | go | c o l o r | first name | GivenName |
about | his | Gold | C | 3PO |
business | . | Blue | R2 | D2 |
让我们转而利用FuzzyTable类。在
^{pr2}$现在让我们来看看我们提取的数据。在
>>> droids['color']['Gold', 'Blue'] >>> for droid in droids.records: ... print(f"{droid['first_name']}-{droid['last_name']} is {droid['color']}.") C-3PO is Gold. R2-D2 is Blue. >>> droids.fields['first_name'].col_num 3 >>> droids.sheet.header_row 2
链接
- 文档(教程等):fuzzytable.readthedocs.io
- PyPI:pypi.org/project/fuzzytable
- github:github.com/jonathanchukinas/fuzzytable
- 提交问题:github.com/jonathanchukinas/fuzzytable/issues
支持的格式
- Excel(.xlsx、.xlsm、.xltx、.xltm)
- csv(.csv)
基本上,任何可以被openpyxl或csv模块读取的内容。在
- 项目
标签: