用于可视化和探索大型表格数据集的核心外数据框架

vaex的Python项目详细描述


| travis conda chat

vaex使用几个站点:

*主页:https://vaex.io/
*文档:https://docs.vaex.io/
*github:https://github.com/vaexio/vaex
*pypi:https://pypi.python.org/pypi/vaex/


vaex是开源软件,如果需要支持的话,请通过https://vaex.io





联系我们什么是vaex?
----

pandas),以可视化和探索大型表格数据集。它可以在
*n维网格*上计算
*可视化使用**柱状图**、**密度
绘图**和**三维体绘制**,允许对
大数据进行交互式探索。vaex使用内存映射、零内存复制策略和延迟计算来获得最佳性能(无内存浪费)。




进程
超过10亿*行/秒
-**惰性/虚拟列:**动态计算,不浪费内存
-**内存效率**执行
筛选/选择/子集时没有内存副本。
-**可视化:**直接支持,一行就足够了。
-**用户友好的API:**您只需要处理一个数据集
对象,tab completion+docstring就能帮您解决这个问题:
``ds.mean<;tab>;````,感觉与熊猫非常相似。
-**lean:**分成多个包

-``vaex core``:数据集和核心算法,将numpy数组作为
输入列。
-``vaex-hdf5``:将内存映射的numpy数组提供给数据集。
-``vaex arrow`` arrow<;https://arrow.apache.org/>;`_支持跨语言数据共享。
-``vaex-viz`:基于matplotlib的可视化。
-``vaex-jupyter`:基于jupyter的交互式可视化ipyvolume和ipyleaflet。
-``vaex astro``:与天文学相关的转换和fits文件
支持。
-``vaex server``:提供一个服务器来远程访问数据集。
-``vaex distributed`:(概念证明)将多个服务器
/群集组合成一个用于分布式计算的单个数据集。
-``vaex qt``:使用qt gui编写的程序。
-``vaex``:安装上述所有内容的元包。
-``vaex ml``:`机器学习<;http://docs.vaex.io/en/latest/ml.html>;`_带自动管道。

-**Jupyter集成**:Vaex Jupyter将在Jupyter笔记本电脑和Jupyter实验室中为您提供交互式的可视化和选择。

vaex``

<;https://jupyter.readthedocs.io/en/latest/running.html>;`\我们从导入vaex开始,让它给我们提供示例数据集。代码::ipython3

ds=vaex.example();打开vaex提供的示例数据集



https://docs.vaex.io/en/latest/api.html vaex.from _csv>;`代码::ipython3



ds漂亮地打印出一个表。代码:ipython3

ds庠negative=ds[ds.x<;0]轻松筛选数据集,无需复制
ds庠negative[:5]["x","y"]]取前五行,仅"x"和"y"列(无内存复制!)









相反,vaex使用惰性计算,只存储
计算的表示,并在需要时动态执行计算。
即使如此,您也可以使用许多numpy函数,就好像它是一个
普通数组一样。

代码::ipython3


import numpy as np
创建一个表达式(不计算任何内容)
r=np.sqrt(ds.x**2+ds.y**2+ds.z**2)
r;为了方便起见,我们打印一些值






解析文本::

<;vaex.expression.expression(expressions='sqrt(((x**2)+(y**2))+(z**2)))'>;实例位于0x11bcc4780值=[2.9655450396553587,5.77829281049018,6.990796039950256,9.431842752707537,0.88256131213479967…(总计330000个值)……7.453831761514681、15.398412491068198、8.864250273925633、17.601047186042507、14.540181524970293]






可以将这些表达式添加到数据集中,从而创建我们称之为虚拟列*。这些虚拟列与普通列类似,
只是它们不会浪费内存。

。代码::ipython3

ds.mean(ds.x),ds.mean(ds.r)计算正常列和虚拟列的统计信息








解析文本:

(-0.06713149126400597,9.407082338299773)






vaex的核心功能之一是它能够在规则(n维)网格上计算统计信息。网格的尺寸由binby参数指定(类似于sql的grouby),形状和限制。代码::ipython3









解析文本:

数组([15.01058183,14.43693006,13.72923338,12.90294499,11.86615103,
11.03563695,10.12162553,9.2969267,8.58250973,7.86602644,
7.19568442,6.55738773,6.01942499,5.51462457,5.15798991,
4.8274218,4.7346551、5.1343761、5.46017944、6.02199777、
6.54132124、7.27025256、7.99780777、8.55188217、9.30286584、
9.97067561、10.81633293、11.60615795、12.33813552、13.10488982、
13.86868565、14.60577266])





代码::ipython3

ds.count(ds.r,binby=[ds.x,ds.y],shape=32,limits=[-10,10])或2d计数/直方图







解析文本:

28.],
[51.,32.,46.,…,47.,33.,36.]])





为了方便起见,我们可以使用"plot1d<;https://docs.vaex.io/en/latest/api.html vaex.dataset.dataset.plot1d>;`,
"plot<;https://docs.vaex.io/en/latest/api.html vaex.dataset.dataset.plot>;`,或查看"打印命令列表"<;https://docs.vaex.io/en/latest/api.html visualization>;`




continue
----

`继续教程<;https://docs.vaex.io/en/latest/tutorial.html>;`或检查示例<;https://docs.vaex.io/en/latest/examples.html>;`

如果您喜欢VAEX,请在Github上给我们一颗星星,

|特拉维斯图片:https://travis-ci.org/vaexio/vaex.svg?branch=master
:目标:https://travis-ci.org/vaexio/vaex.svg?分支=主
…|聊天室图像::https://badges.gitter.im/maartenbreddels/vaex.svg
:alt:在https://gitter.im/maartenbreddels/vaex加入聊天室
:目标:https://gitter.im/maartenbreddels/vaex?联合技术手册来源=徽章和联合技术手册媒介=徽章和联合技术手册活动=公关徽章和联合技术手册内容=徽章
…| conda图片::https://anaconda.org/conda forge/vaex/badges/downloads.svg
:目标:https://anaconda.org/conda-forge/vaex

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java调用Python函数作为TEID中的UDF   java Android。支持v4导入不工作   java如何影响具有静态属性的类   java如何在从glTexImage2D()分配后编辑纹理的像素颜色   javaspringboot+rediscache+@Cacheable适用于某些方法,而不适用于其他方法   java无法将动态Web模块方面从3.0更改为2.5   java如何在新选项卡中显示打印的文档?   java Google Cloud Endpoints API方法仅在删除用户参数时成功调用   java为什么我可以使用Stack<Double>但不能使用Stack<Double>?   java JDBC PreparedStatement似乎忽略了占位符   java如何设置JInternalFrame的标准图标化位置?   Java文件。copy()不复制文件   基于另一个类的java显示arraylist?   java Android Studio:错误:非法字符:'\u2028'   对象(Java)无法实例化类型映像?   javascript错误:飞行前响应的HTTP状态代码401无效   java确保泛型vararg参数具有相同的类型