Python splink包_程序模块 - PyPI

在apachespark中实现EM算法估计FellegiSunter标准记录链接模型的参数。

splink的Python项目详细描述

issues-status python-version-dependency

splink：概率记录链接和大规模重复数据消除

splink在apachespark中实现Fellegi-Sunter的记录链接规范模型，包括估计模型参数的EM算法。在

splink的目的是：

在
与当前的开源实现（1亿条以上的记录）相比，工作规模要大得多。在
在
在
比当前的开源实现更快地获得结果—运行时不到一个小时。在
在
在
有一个高度透明的方法，所以比赛分数可以很容易地用图形和文字来解释
在
在
具有与一些最佳替代品类似的精确度
在

安装

splink是一个Python包。它使用Spark Python API在Spark集群中执行数据链接作业。它已经在apachespark2.3和2.4中进行了测试。在

使用安装夹板

pip install splink

交互式演示

单击下面的按钮，您可以在交互式Jupyter笔记本中运行splink的演示：

文件

目前最好的文档是splink_demosrepo中的一系列演示笔记本。在

我们还提供了一个交互式的splink设置编辑器和示例设置here。可以找到生成自定义m和u概率的工具here。在

splink背后的统计模型与RfastLink package中使用的相同。fastLink包附带一个描述此模型的academic paper。对于希望了解splink如何工作的用户来说，这是最好的起点。在

你可以阅读一篇关于splinkhere的短文。在

视频

您可以找到一个简短的视频介绍splink，并运行介绍性演示here。在

“最佳实践和性能优化”教程可以找到here。在

致谢

我们非常感谢ADR UK（英国行政数据研究）为这项工作提供资金，作为{a12}项目的一部分。在

我们也非常感谢英国国家统计局的同事们对这项工作的专家建议和同行评议。在

欢迎加入QQ群-->： 979659372

splink 0.3.5

splink的Python项目详细描述

splink：概率记录链接和大规模重复数据消除

安装

交互式演示

文件

视频

致谢

推荐PyPI第三方库

agora-gw

Projektarbeit

aimgtrs

plaid-python

gulpio

SMMSAT

pyplotz

disp

bubka

jhbdata

dynodoc

Nuitka

eway-rapid-python

mroylib-min

frasco-api

导航栏

项目链接

标签

维护者

最新PyPI项目

最新Python常见问题

splink 0.3.5

splink的Python项目详细描述

splink：概率记录链接和大规模重复数据消除

安装

交互式演示

文件

视频

致谢

推荐PyPI第三方库

agora-gw

Projektarbeit

aimgtrs

plaid-python

gulpio

SMMSAT

pyplotz

disp

bubka

jhbdata

dynodoc

Nuitka

eway-rapid-python

mroylib-min

frasco-api

导 航 栏

项目 链接

标 签

维护者

最新PyPI项目

最新Python常见问题

导航栏

项目链接

标签