有人使用过Amazon Quantum账本数据库(QLDB)Amazon ion文件吗?如果是这样,您知道如何提取“数据”部分来制定表格吗?也许可以使用python来刮取数据? 我试图从存储在s3中的这些文件中获取“数据”信息(我无法访问QLDB,因此无法直接查询),然后将结果上传到Glue
我正在尝试使用GLue执行ETL作业,但GLue不喜欢Amazon Ion文件,因此我需要从这些文件中查询数据或从文件中获取相关信息
谢谢。 PS:我所说的“数据”信息是指:
{
PersonId:"4tPW8xtKSGF5b6JyTihI1U",
LicenseNumber:"LEWISR261LL",
LicenseType:"Learner",
ValidFromDate:2016–12–20,
ValidToDate:2020–11–15
}
ref:https://docs.aws.amazon.com/qldb/latest/developerguide/working.userdata.html
诺西菲维
AWS Glue能够读取亚马逊离子输入。但是,许多其他服务和应用程序不能,因此使用Glue将离子数据转换为JSON是一个好主意。请注意,Ion是JSON的超集,向JSON添加了一些数据类型,因此将Ion转换为JSON可能会导致一些down-conversion
从QLDB S3导出访问QLDB文档的一个好方法是使用Glue提取文档数据,将其作为JSON存储在S3中,并使用Amazon Athena进行查询。过程如下:
看看下面的PySpark脚本。它仅从QLDB导出文件中提取修订元数据和数据负载
QLDB导出映射每个文档的表,但与修订数据分开。您必须进行一些额外的编码,以便在输出的修订数据中包含表名。下面的代码没有做到这一点,因此您将在输出的一个表中完成所有修订
还请注意,您将获得导出数据中的任何修订。也就是说,对于给定的文档ID,您可能会获得多个文档修订版。根据您对数据的预期用途,您可能需要了解如何仅获取每个文档ID的最新修订版
我希望这有帮助
你试过使用Amazon Ion库吗
假设问题中提到的数据存在于一个名为“myIonFile.ion”的文件中,并且如果该文件中只有ion对象,我们可以按如下方式从该文件中读取数据:
关于使用离子库的进一步指导见Ion Cookbook
此外,我不确定您的用例,但是与QLDB的交互也可以通过QLDB Driver完成,它直接依赖于离子库
相关问题 更多 >
编程相关推荐