数据块连接客户端

databricks-connect的Python项目详细描述


databricks connect是一个spark客户端库,它允许您将您喜爱的ide(intellij、eclipse、pycharm等)、笔记本服务器(zeppelin、jupyter、rstudio)和其他自定义应用程序连接到databricks集群并运行spark代码。

要开始,请在安装后运行databricks-connect configure

aws文档:https://docs.databricks.com/user-guide/dev-tools/db-connect.html

azure文档:https://docs.azuredatabricks.net/user-guide/dev-tools/db-connect.html

概述

databricks connect允许您使用spark本地api编写作业,并让它们在databricks集群上远程执行,而不是在本地spark会话中执行。

例如,当您使用databricks connect运行dataframe命令spark.read.parquet(...).groupBy(...).agg(...).show()时,作业的解析和规划将在本地计算机上运行。然后,将作业的逻辑表示发送到运行在databricks中的spark服务器,以便在集群中执行。

使用databricks connect,您可以:

  • 从任何python、java、scala或r应用程序运行大规模spark作业。在任何可以import pysparkimport org.apache.sparkrequire(SparkR)的地方,您现在都可以直接从应用程序运行Spark作业,而无需安装任何IDE插件或使用Spark提交脚本。
  • 单步执行并调试IDE中的代码,即使在使用远程集群时也是如此。
  • 在开发库时快速迭代。更改databricks connect中的python或java库依赖项后,不需要重新启动集群,因为集群中的每个客户机会话彼此隔离。
  • 关闭空闲集群而不丢失工作。由于客户机会话与集群分离,因此它不受集群重新启动或升级的影响,这通常会导致您丢失笔记本中定义的所有变量、rdd和dataframe对象。

许可证

版权所有(2018)Databricks,Inc.

此库(“软件”)不得使用,除非与 被许可方根据协议使用数据块平台服务 (定义见下文)在被许可方(定义见下文)和Databricks,Inc.之间。 (“数据块”)。本软件应视为“订阅”的一部分 “本协议项下的服务”,或如果本协议未定义 认购服务,则该协议中的术语指 适用的数据块平台服务(定义如下)应为 此处替换为“订阅服务”。被许可方使用 软件必须始终遵守适用于 订阅服务,通常,必须按照 适用文件。如果你没有同意协议或其他 不同意这些条款,您不能使用本软件。本许可证 在协议或被许可方的 违反这些条款。

协议:数据块和被许可方之间关于使用 数据块平台服务,就数据块而言, databricks服务条款位于www.databricks.com/terms of service, 对于databricks community edition,community edition术语 位于www.databricks.com/ce-termsofuse的服务,在每种情况下,除非 被许可方已与数据块签订单独的书面协议 管理适用数据块平台服务的使用。

数据块平台服务:数据块服务或数据块 社区版服务,根据软件的使用地点。

被许可方:软件的用户,或者,如果软件正在 代表公司,代表公司。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
序列化反序列化java。awt。颜色>java。木卫一。InvalidClassException   java禁用多个日期范围jDateChooser   java为什么我的特例apper会被扔进泽西/灰熊?   JavaIntelliJ比较两个覆盖率数据   java什么是servletsdefault。你怎么办?   单击几下libgdx后java按钮没有响应   使用java将字符串转换为JSONArray   文件系统在java中刷新fileSystemViewer   java如何在hibernate中避免脏检查   java奇怪的问题,带有分号和“无法解决…”   java将值从子面板传递到父面板   HTML JTextPane CSS的Java FontSizeAction   java文件代码神秘地变成了一堆(0000)