在apachespark中实现EM算法估计FellegiSunter标准记录链接模型的参数。
splink的Python项目详细描述
splink:概率记录链接和大规模重复数据消除
splink
在apachespark中实现Fellegi-Sunter的记录链接规范模型,包括估计模型参数的EM算法。在
splink
的目的是:
- 在
与当前的开源实现(1亿条以上的记录)相比,工作规模要大得多。在
在 - 在
比当前的开源实现更快地获得结果—运行时不到一个小时。在
在 - 在
有一个高度透明的方法,所以比赛分数可以很容易地用图形和文字来解释
在 - 在
具有与一些最佳替代品类似的精确度
在
安装
splink
是一个Python包。它使用Spark Python API在Spark集群中执行数据链接作业。它已经在apachespark2.3和2.4中进行了测试。在
使用安装夹板
pip install splink
交互式演示
单击下面的按钮,您可以在交互式Jupyter笔记本中运行splink
的演示:
文件
目前最好的文档是splink_demosrepo中的一系列演示笔记本。在
我们还提供了一个交互式的splink
设置编辑器和示例设置here。可以找到生成自定义m
和u
概率的工具here。在
splink
背后的统计模型与RfastLink package中使用的相同。fastLink包附带一个描述此模型的academic paper。对于希望了解splink
如何工作的用户来说,这是最好的起点。在
你可以阅读一篇关于splink
here的短文。在
视频
您可以找到一个简短的视频介绍splink
,并运行介绍性演示here。在
“最佳实践和性能优化”教程可以找到here。在
致谢
我们非常感谢ADR UK(英国行政数据研究)为这项工作提供资金,作为{a12}项目的一部分。在
我们也非常感谢英国国家统计局的同事们对这项工作的专家建议和同行评议。在
- 项目
标签: