将DynamicFrame语法更接近于DataFrames

easyglue的Python项目详细描述


易趣

这个项目的目标是使AWS Glue的DynamicFrame的用法与apachespark的DataFrame更相似,以便新手更容易使用API。让我们以一个简单的S3读取CSV数据集为例:

数据帧S3读取:

spark.read().csv('s3://test_path/', header=True)

动态帧S3读取:

^{pr2}$

如您所见,这里的语法完全不同。使用EasyGlue,可以将DynamicFrame read操作转换为更类似的操作:

glue.read().format_option('withHeader', True).csv('s3://test_path/')

当前支持的选项

项目目前支持:

  • 以任何支持的格式从S3读取
  • 从数据目录表读取

使用

要在项目中使用EasyGlue,请执行以下操作:

  1. 下载源代码:git clone https://github.com/albertquiroga/EasyGlue.git
  2. 进入项目的目录,并将其构建到一个wheel文件中:python setup.py build bdist_wheel
  3. 将创建一个新的dist目录,您可以在其中找到构建的wheel文件。将这个上传到S3并将其作为库添加到Glue ETL作业中
  4. 在ETL作业代码中,只需在顶部添加import easyglue

路线图

  • 从JDBC源读取
  • 将格式/连接选项转换为方法参数,以便进行更相似、更紧凑的方法调用

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在OSGI中使用cxf生成的客户端时出现Java类装入器问题和JaxB异常   java为什么要在javamail中迭代多部分电子邮件中的部分?   并发编程问题   JFileChooser&&System中未调用java windowClosing。退出功能不正常?   SQL查询的java语法分析   java如何使用AspectJ声明字段上的警告   什么是java向量。元素()C#等价物   java解析Android应用程序中tornado web服务中的CSV文件   java我试过c2dm,我需要服务器端   java调整JPanel大小以适应新的JLabel图标   Java与Python脚本的通信   java使用Saxon通过XSLT生成URL   java net::ERR_complete_CHUNKED_编码200(OK)来自struts应用程序中的tomcat   java如何为我的窗格设置不同的位置?   java使用Cypher Neo4j获取给定类型的所有节点(从SQL世界中的tablename中选择*)   nio使用Java解析文件值   java使用WSDL生成REST客户端会是错误的方向吗?   java如何在我的应用程序中构建类映射?   java按钮。setEnabled在第一个循环中不起作用   xPath适用于最后一页,但不适用于第一页