高性能模糊业务实体匹配
seamster的Python项目详细描述
裁缝
高性能模糊业务实体匹配
动机
这个一揽子计划的目的是促进一个更广泛的目标,即集中化和标准化 企业可用数据。Juniper这样做是因为我们相信创新的关键 在商业保险承保中,公开数据的可访问性、可靠性和完整性是关键。在
特点
- 在Pandas和Scipy的基础上构建了字符串相似性的并行计算。在
- 可扩展的
Join
类允许自定义联接
安装
Seamster需要Python3.5或更高版本才能运行。在
Python包
您可以使用pip轻松安装Seamster:
pip3 install seamster
手动
或者,要获得最新的开发版本,可以克隆此存储库,然后手动安装:
git clone git@gitlab.com:juniperlabs-foss/seamster.git
cd seamster
python3 setup.py install
使用
^{pr2}$托多
- 创建可以置换和丰富数据帧的转换类(例如geolocation)
- 支持多个模糊连接
贡献
有关如何为项目贡献的信息,请查看Contributor's Guide。在
联系人
incoming+juniperlabs-foss/seamster@gitlab.com
许可证
Apache 2.0版
学分
此包是用Cookiecutter和python-cookiecutter项目模板创建的。在
- 项目
标签: