优化Python处理CSV表格为父表和EAV子表

1条回答

网友

1楼 · 发布于 2024-06-16 11:44:47

一个有趣的问题，但很难准确回答，因为有很多定义可能适用或不适用的最佳解决方案的变量。你知道吗

以下是一种基于以下假设的方法-

您不需要数据库代码是可移植的。你知道吗
csv是用一个头来构造的，或者至少是属性名已知和固定。你知道吗
产品表中的sku（或名称/sku组合）具有唯一的约束。你知道吗
同样，EAV表在product_id上有一个唯一的约束，并且 attr_name
- 推论-您没有指定，但我还假设EAV表有一个字段属性名。你知道吗

这个过程可以归结为-

以最快的路径将数据加载到数据库中
在加载过程中或加载之后，将csv从表格结构取消到EAV结构
“向上插入”结果记录-如果存在则更新，否则插入。你知道吗

接近-

所有这些背景，考虑到一个类似的问题，这里是我将采取的方法。你知道吗

创建镜像最终目标的临时表，但不带pks、类型或约束
- 数据库会话结束时，临时表将被删除
一次将.csv直接加载到temp表中；每行执行两次SQL
- 一个用于产品
- 一个用于EAV，使用'multi-value'insert-insert into tmp_eav (sku, attr_name, attr_value) values (%s, %s), (%s, %s)...。你知道吗
- psycopg2有一个自定义方法来为您执行此操作：http://initd.org/psycopg/docs/extras.html#psycopg2.extras.execute_values
使用类似insert into product (name, sku) select name, sku from tmp_product on conflict (sku) do nothing的语句，从tmp表中选择以向上插入最终表
- 这需要PostgreSQL 9.5+。你知道吗
- 对于用户可选择的基于csv更新字段的要求，可以将do nothing更改为do update set col = excluded.col。excluded是冲突的输入行

替代方法-

根据csv的结构创建temp表（假设有足够的元数据在每次运行csv结构的或时执行此操作固定的并且可以一致地转换为表）
使用COPY命令（psycopg2支持）将csv加载到数据库中通过cursor.copy_from方法，将csv作为文件对象传入）。这将比用Python编写的任何东西都要快
- 警告：如果csv是非常可靠的（相同数量的col在每一行）和temp表是非常松散的w/nulls，所有字符串w/no 类型强制。你知道吗
您可以使用结合了为每列选择行转置。你例子中的6位小数应该是可控的。你知道吗

例如：

select sku, 'foo' as attr_name, foo as attr_value from tmp_csv union all
select sku, 'bar' as attr_name, bar as attr_value from tmp_csv union all
...
order by sku;

此解决方案涉及您感兴趣的几个方面：

Python应用程序内存保持平坦
网络I/O仅限于将.csv输入数据库并发出正确的后续sql语句

一个关于结束的小建议-

最佳和“足够好”几乎不是一回事
只有在非常特殊的情况下才需要优化
所以，要以“足够好”为目标，但要明确“足够好”的含义- i、例如，选择一个或两个措施
迭代，一次求解一个变量。根据我的经验，第一个障碍（比如说，“端到端处理时间少于 X秒）通常就足够了。你知道吗

接近-

替代方法-

相关问题更多 >

编程相关推荐

热门问题

热门文章

优化Python处理CSV表格为父表和EAV子表

接近-

替代方法-

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >