在apachespark中实现EM算法估计FellegiSunter标准记录链接模型的参数。

splink的Python项目详细描述


image

Coverage Statusissues-statuspython-version-dependency

splink:概率记录链接和大规模重复数据消除

splink在apachespark中实现Fellegi-Sunter的记录链接规范模型,包括估计模型参数的EM算法。在

splink的目的是:

  • 与当前的开源实现(1亿条以上的记录)相比,工作规模要大得多。在

  • 比当前的开源实现更快地获得结果—运行时不到一个小时。在

  • 有一个高度透明的方法,所以比赛分数可以很容易地用图形和文字来解释

  • 具有与一些最佳替代品类似的精确度

安装

splink是一个Python包。它使用Spark Python API在Spark集群中执行数据链接作业。它已经在apachespark2.3和2.4中进行了测试。在

使用安装夹板

pip install splink

交互式演示

单击下面的按钮,您可以在交互式Jupyter笔记本中运行splink的演示:

Binder

文件

目前最好的文档是splink_demosrepo中的一系列演示笔记本。在

我们还提供了一个交互式的splink设置编辑器和示例设置here。可以找到生成自定义mu概率的工具here。在

splink背后的统计模型与RfastLink package中使用的相同。fastLink包附带一个描述此模型的academic paper。对于希望了解splink如何工作的用户来说,这是最好的起点。在

你可以阅读一篇关于splinkhere的短文。在

视频

您可以找到一个简短的视频介绍splink,并运行介绍性演示here。在

“最佳实践和性能优化”教程可以找到here。在

致谢

我们非常感谢ADR UK(英国行政数据研究)为这项工作提供资金,作为{a12}项目的一部分。在

我们也非常感谢英国国家统计局的同事们对这项工作的专家建议和同行评议。在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
使用freemarker(ftl模板)通过spring发送outlook电子邮件的java自定义表单   java Project Euler 17错误答案   java想澄清所有关于Android多屏幕尺寸支持的疑问吗?   如何使用Eclipse和Maven配置Java项目以连接到AmazonRDS   java如何在Java8中按流对映射对象按时间段求和?   我是Java新手,希望有人能帮我   java Spring boot,序列化和反序列化时Jackson Json问题   java扫雷器(不是算法,只是布局问题)   java找到一个字符[]的完全唯一排列吗?   java哪种CRC用于更改Desfire卡中的密钥   java如何修复越界索引错误?   java读取Excel数值单元格值   java如何正确构建“PUT方法”并执行“intern请求”?   java如何从XSD生成JAXB类?   java为什么要运行它?   Java,畸形异常   java Springsecurityldap:实例化InitialContextFactory com失败。太阳jndi。ldap。LDAPCTX工厂   解析Java无法读取文本文件   java在每个请求之前运行资源方法