重复数据消除中训练对的数目与样本大小之间的关系是什么?

2024-05-16 04:42:10 发布

您现在位置:Python中文网/ 问答频道 /正文

我一直在使用重复数据消除库进行一个项目,在开始培训时遇到错误消息“尝试使用索引谓词阻止而不索引记录标记对”。当我增加样本的大小时,问题就消失了。为什么?你知道吗

我有两个数十万行的数据集。我用以下函数创建训练对

training_pairs = dedupe.trainingDataLink(data_1, data_2, 'entity_id', 5000)

然后创建样本集并尝试使用markPairs函数。你知道吗

gazetteer = dedupe.Gazetteer(variables, num_cores=4)
gazetteer.sample(data_1, data_2, 100000)
gazetteer.markPairs(training_pairs)

当sample函数的最后一个参数较低时,它经常给出上述错误消息。据我所知,这是因为所包含的样本并没有涵盖所有可能来自训练对的组合。是这样吗?如果是这样,我应该设置的最小值是多少?你知道吗

training_pairs = dedupe.trainingDataLink(data_1, data_2, 'entity_id', 5000)

gazetteer = dedupe.Gazetteer(variables, num_cores=4)
gazetteer.sample(data_1, data_2, 100000)

Tags: 数据sample函数id消息data错误training