从不同数据源映射数据的智能方法创建唯一ID

2024-04-27 03:22:43 发布

您现在位置:Python中文网/ 问答频道 /正文

我有来自不同的平面.csv文件的数据,我已经上传到Azure Blob存储。使用Azure数据工厂,我创建了一个SQL数据库,其中包含来自不同文件的所有表。所有数据源都包含相同的基础数据,但使用的命名约定略有不同。 我的数据源中的数据级别是:

  • 品牌屋
  • 品牌群
  • 产品名称
  • 大小

我想创建一个唯一的映射约定(最低层次结构级别上的唯一ID),它可以将所有数据源链接在一起。目标是在每个表中创建一个大小级别上唯一的ID。你知道吗

目前,我正在考虑用Python编写一个脚本,用于查看不同表中的字符串值,并为数据中的每个层次结构级别创建一个唯一的ID。然后用Azure数据块运行这个脚本,并创建所有id。这种方法要求我查看每个层次结构级别上的所有不同选项,并考虑智能命名约定。你知道吗

Azure数据工厂或其他智能工具中是否有任何内置功能可以帮助我解决此问题?我上面描述的方法需要相当多的手工工作,我想在这里利用任何最佳实践。你知道吗


Tags: 文件csv数据方法脚本id层次结构工厂