apache spark python api

pyspark的Python项目详细描述


spark是一个快速通用的大数据集群计算系统。它 提供scala、java、python和r中的高级api,以及 支持用于数据分析的通用计算图的引擎。它 还支持一组丰富的高级工具,包括 sql和dataframes,用于机器学习的mllib,用于图形的graphx 用于流处理的处理和火花流。

http://spark.apache.org/

联机文档

您可以找到最新的Spark文档,包括编程 指南,在project web page

python打包

此自述文件仅包含与PIP相关的基本信息 安装了Pyspark。这种包装目前正在试验中,可能 未来版本的变化(尽管我们将尽最大努力保持 兼容性)。使用Pyspark需要火花罐,如果你是 从源代码开始构建请参阅 “Building Spark”

spark的python包并不打算替换所有 其他用例。spark的python打包版本适合于 与现有的集群交互(它是火花独立的,纱线,或 但不包含建立自己的 独立火花集群。你可以下载Spark的完整版本 从Apache Spark downloads page开始。

注意:如果您将此与Spark独立群集一起使用,则必须 确保版本(包括次要版本)匹配,或者 经历奇怪的错误。

python需求

pyspark的核心依赖于py4j(当前版本是0.10.7),但是 附加的子包对某些 特征(包括numpy、pandas和pyarrow)。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
如何用java表示这个数学函数的算法   Java/Stream帮助:仅使用streams将嵌套的映射列表转换为映射   使用Selenium连接到数据库时发生java未知主机异常   java如何了解jvm内存使用:“堆内存”和“堆外内存”   java Oracle BI报告导入模板   java如何使用Spring将xml转换为bean?   java线程。join()以保证执行顺序   java从THINGSPEAK到ANDROID应用程序获取JSON数据   使用Java的stanford库中的异常   java正确使用来自其他类文件的方法   如果集合中的元素类型为接口类型,如何填充集合?(爪哇)   记录java。util。记录器创建的文件超过了应有的数量   类Java对象uniq值   尝试调用无法应用于()的方法时出现java错误