Python shmistogram包_程序模块 - PyPI

分段均匀单变量密度估计及可视化

shmistogram的Python项目详细描述

shmistmogram

shmistmogram是一个更好的直方图。主要区别包括

强调具有独立多项式分布的奇异模态（即点质量）
与直方图相比，用更好的精度和更少的箱子估计密度按层次将点分组到可变宽度的存储箱中

假设我们模拟从三角形分布（即"群组"）绘制的图形，补充了几个模式点（"loners"）和一些空值：

frommatplotlibimportpyplotaspltimportnumpyasnpimportshmistogramassh# Simulate a mixture of a uniform distribution mixed with a few point massesnp.random.seed(0)crowd=np.random.triangular(-10,-10,70,size=500)loners=np.array([0]*40+[42]*20)null=np.array([np.nan]*100)data=np.concatenate((crowd,loners,null))fig,axes=plt.subplots(1,2)# Build a standard histogram with matplotlib.pyplot.hist defaultssh.plot.standard_histogram(data[~np.isnan(data)],ax=axes[0],name='mixed data')# Build a shmistogramshm=sh.Shmistogram(data)shm.plot(ax=axes[1],name='mixed data')fig.tight_layout()

src=

柱状图在一定程度上模糊了点质量，并没有说明丢失的值。相比之下，shmistmogram使用红色线段来强调点质量，并且图例栏突出显示群组中数据相对于点质量与空值的比较。

安装

安装python 3.6+
pip安装git+https://github.com/zkurtz/shmistmogram.git\egg=shmistmogram
通过运行demo.py来测试您的安装

详细信息

默认行为

给定一个一维数值数组（或np.nan）值data，shmist程序 shmistmogram.shmistmogram（数据）

计算每个唯一值
将数据拆分为多达3个子集：
- np.nan
- "孤独者"是指计数高于参数loner_min_count。shmistmogram默认情况下动态设置作为len（data）的对数线性函数。100分，阈值为8；100000则为18。
- "人群"是所有剩余的积分。
使用密度估计树对"人群"进行分类。

对结果对象调用plot方法将显示所有组件单个图形上的分布。

为什么要这么做？

用例1：探索性数据分析
shmistmogram可以比直方图更具信息性，方法是将连续和离散变化：
不一致舍入任何连续变量都可能导致点质量和相对连续观测值的混合
"获得第一张驾照的年龄"似乎有结构模式法定最低限额（可能因州而异）或其他持续变化

用例2：可伸缩的生成密度估计

在默认设置下，shmistmogram的刻度约为o（n log（n））。（请参见speed\u testing.ipynb）。得到的密度模型很容易取样，作为分段制服分布和多项式分布。如此简单估计器工作良好，是cade密度所需的输入之一。高维估计算法以及混合连续/分类数据（请参见pydens）。

shmistmogram的自适应bin宽度导致了复杂的分布没有实质性地增加箱子的数量。这不是一个新的想法，而且shmistmogram包含多个binning 用户可以选择的方法。见 binning_methods.ipynb了解详细信息。

装箱

默认的装箱算法使用二进制密度估计树迭代拆分da把它放到更小的箱子里。拆分位置（在bin/leaf中）最大化偏差的惩罚改善（即样本负对数似然）。惩罚反映

一个硬的min_data_in_leaf约束。此最小值当前默认为3
对观测较少的垃圾箱的软惩罚

我们选择要分割的箱子作为分割产生最大的箱子有缺陷的改进。只要偏差改善超过树叶的数目。这种方法受到Akaike信息准则的启发（aic），虽然这可能是对我们使用的标准的滥用它是贪婪迭代过程的一部分，而不是用来比较完全形成的模型。

变宽度装箱算法贝叶斯块表示法提供一个替代我们默认的装箱算法。参见演示一个例子。也见 python巡视对于贝叶斯块的简单概念介绍。

愿望列表

澄清目标：优化binner （a）可视化目的，例如避免高而窄的垃圾箱，以尽量减少空白，或者调整平均箱子宽度来讲述一个特定的故事（b）最小化估计精度的形式度量，例如越轨预期（从真实分布中接管未来的观察）。我们应该提供最有效的分类方法的指导每一个目标。

为默认方法优化速度。可伸缩性是这样一个简单模型的动机，但是当前的实现是远远不是最佳状态。

比较/对比/协调我们的分类方法与文献：

密度估算树例如这
分发元素树例如 detpack。见对于一个简单的可变宽度binner，可以使用detpack example.r rel="nofollow">detpack example.r。
通过分段多项式进行有效密度估计近似值

免责声明

这个回购协议很年轻，几乎没有单元测试，应该会有实质性的变化。小心使用。

许可证

这个项目是根据麻省理工学院的许可条款授权的。有关其他详细信息，请参见许可证。

欢迎加入QQ群-->： 979659372

推荐PyPI第三方库

导航栏
项目描述
版本历史
下载文件
项目链接
首页
标签
许可证: BSD许可证（BSD 3条款）
作者信息:: 暂无
维护者
zkurtz
最新PyPI项目
italian_vip_says
UFx
vofs
fake_item_generator
NerEva
django-monologue
fio_product_attribute_strict
climailsystem
pyshape
tbb-devel
npy-append-arra
anthill.tal.macrorenderer
odoo11-addon-stock-a
uuuu
contextil
fyl_nester
appomatic_renderable
teacher
chuletas
slackbot_ce
最新Python常见问题
如何提高Djang的410误差
如何提高doc2vec模型中两个文档（句子）的余弦相似度？
如何提高Docker的日志限制？|[输出已剪裁，达到日志限制100KiB/s]
如何提高DQN的性能？
如何提高EasyOCR的准确性/预测？
如何提高Euler#39项目解决方案的效率？
如何提高F1成绩进行分类
如何提高FaceNet的准确性
如何提高fft处理的精度？
如何提高Fibonacci实现对大n的精度？
如何提高Flask与psycopg2的连接时间
如何提高FosterCauer变换的scipy.signal.invres（）的数值稳定性？
如何提高gae查询的性能？
如何提高GANs用于时间序列预测/异常检测的结果
如何提高gevent和tornado组合的性能？

shmistogram 0.2.4

shmistogram的Python项目详细描述

shmistmogram

安装

详细信息

默认行为

为什么要这么做？

用例2：可伸缩的生成密度估计

装箱

愿望列表

免责声明

许可证

推荐PyPI第三方库

qcrop

deepracer-utils

pyngsi

qx

pigz-python

pyThingPark

oktadboto

py-multi-pager

tdbuild

statinf

mypy-boto3-rekognition

zorroclient

text-classification-prova-alessandro-artoni

cs46-flora-trees

varsom-landslide-client

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

shmistogram 0.2.4

shmistogram的Python项目详细描述

shmistmogram

安装

详细信息

默认行为

为什么要这么做？

用例2：可伸缩的生成密度估计

装箱

愿望列表

免责声明

许可证

推荐PyPI第三方库

qcrop

deepracer-utils

pyngsi

qx

pigz-python

pyThingPark

oktadboto

py-multi-pager

tdbuild

statinf

mypy-boto3-rekognition

zorroclient

text-classification-prova-alessandro-artoni

cs46-flora-trees

varsom-landslide-client

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签