擅长:python、mysql、java
<p>在<code>Dataframe</code>的<code>drop_duplicates()</code>方法中,您可以提供一系列列名来消除数据中的重复记录。</p>
<p>以下“已测试”代码的作用相同:</p>
<pre><code>import pandas as pd
df = pd.DataFrame()
df.insert(loc=0,column='Column1',value=['cat', 'toy', 'cat'])
df.insert(loc=1,column='Column2',value=['bat', 'flower', 'bat'])
df.insert(loc=2,column='Column3',value=['xyz', 'abc', 'lmn'])
df = df.drop_duplicates(subset=['Column1','Column2'],keep='first')
print(df)
</code></pre>
<p>在subset参数内,还可以插入其他列名,默认情况下,它将考虑数据的所有列,并且可以提供keep值:</p>
<ul>
<li>第一次:删除除第一次出现以外的重复项。</li>
<li>最后:除去最后一次出现的重复项。</li>
<li>错误:删除所有重复项。</li>
</ul>