用于端到端实体匹配的python库。

py-entitymatching的Python项目详细描述


Py实体匹配

这个项目试图构建一个python软件包来匹配实体 在两张桌子之间使用监督学习。这个问题经常 称为实体匹配(em)。给出两个表A和B,目标是 em是发现两个表之间的元组对,这两个表引用 同样的现实世界实体。实体匹配涉及两个主要步骤: 分块匹配。阻塞步骤旨在消除明显的不匹配 元组对并减少要匹配的集合。实体匹配 实践涉及许多步骤,而不仅仅是阻塞和匹配。执行EM时 用户通常执行许多步骤,例如探索、清理、调试、采样, 估计精度等。但是,当前的电磁系统不包括 em pipeline,只支持几个步骤(例如阻塞、匹配),而 忽略不太知名但同样重要的步骤(例如,去毛刺、取样)。 此软件包旨在支持em pipeline中涉及的所有步骤。

该软件包是免费的,开源的,并且有bsd许可。

依赖关系

生成包所需的依赖项为:

  • pandas(提供存储和管理表的数据结构)。在0.23.2版上测试。
  • scikit learn(提供通用机器学习算法的实现)。在0.18.0版上测试。
  • joblib(提供多处理功能)。在0.12.0版上测试。
  • pyqt5(提供构建gui的工具)。在5.6.0版上测试。
  • py_stringsimjoin(提供字符串相似性连接的实现)。在0.3.0版上测试。
  • py_stringmatching(提供一组字符串标记器和字符串相似性函数)。在0.4.0版上测试。
  • cloudpickle(提供序列化python构造的函数)。在0.2.1版上测试。
  • Pyprind(显示进度指示器的库)。在2.10.0版上测试。
  • pyparsing(用于分析字符串的库)。在2.2.0版上测试。
  • 六个(提供跨Python2和3编写兼容代码的函数)。在2.11.0版上测试。

平台

py-entitymatching已经在linux、os x和windows上进行了测试。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
spring引导服务器忽略java上载请求   java多个驼峰路由会导致大量线程吗?   java 安卓单签入回收器gridLayout管理器   Java中指向类的不同实例的对象数组   java的启动/停止和打开/关闭等分组功能是否违反了单一责任原则?   java hibernate组件映射与自定义值类型   java如何使用不同的JDK在Jenkins作业中使用JDK8   java从匹配器获取字符串的特定部分   java通过在Spark数据框内的数组列中映射来创建新列   servlet的java Tomcat配置   java多个活动不在一个应用程序安卓 studio中   javajsf:view beforePhase在我离开页面时多次触发   javascript如何使用“java脚本”进行加密,使用和“java”进行解密   java My App不是从URL ASPX读取简单的JSON   java在RESTish web服务中应用DDD原则