当我从MySQL导出数据到BigQuery时,有些数据被复制了。为了解决这个问题,我考虑使用行号创建这个表的视图。执行此操作的查询如下所示。问题是我的数据集中有很多表是重复的,可能当我添加新表并将它们导出到大查询时,它们会有重复的数据,而且我不想每次在数据集中添加新表时都创建这种类型的查询(我希望在导出新表的同时,创建一个该表的视图)。是否可以在查询的循环中执行此操作(例如“对于数据集中的每个表,执行此操作”)?这是否可以在shell脚本中完成(当将表导出到大查询时,为该表创建一个视图)?在最后一种情况下,这在python中可以实现吗?在
SELECT
* EXCEPT (ROW_NUMBER)
FROM
(
SELECT
*, ROW_NUMBER() OVER (PARTITION BY id order by updated_at desc) ROW_NUMBER
FROM dataset1.table1
)
WHERE ROW_NUMBER = 1
这肯定可以在python中完成。 我建议使用gcloudpython库https://github.com/GoogleCloudPlatform/google-cloud-python
所以我觉得你的剧本应该是这样的
相关问题 更多 >
编程相关推荐