使用python重复数据消除库进行模糊重复检查错误

2024-04-19 04:35:04 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图使用python重复数据消除库对模拟数据执行模糊重复检查,但我一直遇到以下错误:

{'Vendor': {0: 'ABC', 1: 'ABC', 2: 'TIM'},
 'Doc Date': {0: '5/12/2019', 1: '5/13/2019', 2: '4/15/2019'},
 'Invoice Date': {0: '5/10/2019', 1: '5/10/2019', 2: '4/10/2019'},
 'Invoice Ref Num': {0: 'ABCDE56.', 1: 'ABCDE56', 2: 'RTET5SDF'},
 'Invoice Amount': {0: '56', 1: '56', 2: '100'}}

索引器:无法从空序列中选择

以下是我正在使用的代码:

import pandas as pd 
import pandas_dedupe

df = pd.read_csv("duptest.csv") df.columns

df = pandas_dedupe.dedupe_dataframe(df,['Vendor','Invoice Ref Num','Invoice Amount'])

知道我做错了什么吗?谢谢


Tags: csv数据importrefpandasdfdateinvoice
1条回答
网友
1楼 · 发布于 2024-04-19 04:35:04

熊猫重复数据消除创建需要标记的观测样本。 默认观察量等于数据帧的30%。 在您的案例中,数据框架中的示例太少,无法开始主动学习

如果您sample_size=1如下所示:

df = pandas_dedupe.dedupe_dataframe(df,['Vendor','Invoice Ref Num','Invoice Amount'], sample_size=1)

您将能够删除重复数据:)

相关问题 更多 >