我一直在使用重复数据消除库进行一个项目,在开始培训时遇到错误消息“尝试使用索引谓词阻止而不索引记录标记对”。当我增加样本的大小时,问题就消失了。为什么?你知道吗
我有两个数十万行的数据集。我用以下函数创建训练对
training_pairs = dedupe.trainingDataLink(data_1, data_2, 'entity_id', 5000)
然后创建样本集并尝试使用markPairs函数。你知道吗
gazetteer = dedupe.Gazetteer(variables, num_cores=4)
gazetteer.sample(data_1, data_2, 100000)
gazetteer.markPairs(training_pairs)
当sample函数的最后一个参数较低时,它经常给出上述错误消息。据我所知,这是因为所包含的样本并没有涵盖所有可能来自训练对的组合。是这样吗?如果是这样,我应该设置的最小值是多少?你知道吗
training_pairs = dedupe.trainingDataLink(data_1, data_2, 'entity_id', 5000)
gazetteer = dedupe.Gazetteer(variables, num_cores=4)
gazetteer.sample(data_1, data_2, 100000)
目前没有回答
相关问题 更多 >
编程相关推荐