实体匹配的深度学习包

deepmatcher的Python项目详细描述


https://travis-ci.org/anhaidgroup/deepmatcher.svg?branch=masterhttps://img.shields.io/badge/License-BSD%203--Clause-blue.svg

deepmatcher是一个python包,用于使用深度学习执行实体和文本匹配。 它提供内置的神经网络和实用程序,使您能够训练和应用 最先进的深度学习模型,实体匹配不到10行代码。 模型也很容易定制-模块化设计允许任何子组件 更改或交换为自定义实现。

例如,给定标记的元组对,如下所示:

https://raw.githubusercontent.com/anhaidgroup/deepmatcher/master/docs/source/_static/match_input_ex.png

DeepMatcher使用标记的元组对并训练一个神经网络来执行匹配,即 预测匹配/不匹配标签。然后可以使用经过训练的网络获取 未标记元组对。

纸张和数据

有关所用模型的体系结构的详细信息,请看我们的论文Deep Learning for Entity Matching(sigmod'18)。中使用的所有公共数据集 论文可以从datasets page下载。

快速启动:30秒后进入DeepMatcher

使用DeepMatcher有四个主要步骤:

  1. 数据处理:加载和处理标记的培训、验证和测试csv数据。
importdeepmatcherasdmtrain,validation,test=dm.data.process(path='data_directory',train='train.csv',validation='validation.csv',test='test.csv')
  1. 模型定义:指定神经网络架构。使用内置混合动力 默认情况下为模型(如our paper的第4.4节所述)。罐头 根据你内心的渴望定制。
model=dm.MatchingModel()
  1. 模型训练:训练神经网络。
model.run_train(train,validation,best_save_path='best_model.pth')
  1. 应用:在测试集上评估模型,并应用于未标记的数据。
model.run_eval(test)unlabeled=dm.data.process_unlabeled(path='data_directory/unlabeled.csv',trained_model=model)model.run_prediction(unlabeled)

安装

我们目前只支持python版本3.5和3.6。建议使用PIP安装:

pip install deepmatcher

请注意,在安装过程中,您可能会看到一条错误消息,显示“Failed Building Wheel for FastTextMirror”。您可以放心地忽略这一点-这并不意味着安装有任何问题。

教程

使用deepmatcher:

  1. Getting Started:更深入的指南,帮助您熟悉 使用DeepMatcher。
  2. Data Processing:关于数据处理涉及哪些内容以及如何 定制它。
  3. Matching Models:实体匹配神经网络体系结构高级指南 以及如何定制它。

实体匹配工作流:

End to End Entity Matching:开发完整实体的指南 匹配工作流。本教程讨论如何使用deepmatcher和Magellan来 执行阻塞、采样、标记和匹配以从两个 桌子。

deepmatcher用于其他匹配任务:

Question Answering with DeepMatcher:关于如何使用deepmatcher进行提问的教程 回答。具体来说,我们将查看WikiQA,这是一个基准数据集,用于 答案选择。

API参考

api文档are here

支架

这个包正在积极开发中。如果你遇到任何问题, 请file GitHub issues

团队

DeepMatcher是由威斯康星大学麦迪逊分校的研究生Sidharth Mudgal开发的 韩莉,在安海道恩教授和西奥多罗雷卡西纳斯教授的监督下。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java组织。冬眠hql。内部的阿斯特。QuerySyntaxException:<table\u name>未映射[来自<table\u name>]   异常无法有效使用来自Java的多捕获   java Hibernate Search是Lucene的干净抽象吗?   组织。xml。萨克斯。SAXException:没有针对的反序列化程序{http://www.w3.org/2001/XMLSchema}Java中使用Axis的anyType   java是独立于Eclipse平台的吗?   java PigLatin语句转换器方法给出了“indexoutofboundsexception”错误等   java Spring+Jackson+反序列化泛型对象列表   java获取firefox配置文件的配置文件当配置文件计数超过3(包括默认值)时,我没有选择给定的配置文件   java XPages应用程序无法运行   java为什么字符连接返回“int”和?   java如何以正确的方式从静态助手类中的异步方法返回值?   java如何将字符串值转换为整数数组列表   javajackcess表限制?   java如何使用SMACK API和GTALK发送消息?   java按钮显示在左上角,具有不同的外观和感觉