包含CSV文件，但按2列过滤重复项

Name UniqueID Status Apple 1121 Full Orange 1122 Eaten Apple 1123 Rotten Pear 1233 Wiggly # Apple 1121 Eaten <-- this result was excluded

2条回答

网友

1楼 · 编辑于 2024-05-14 15:44:08

设置

import pandas as pd
from StringIO import StringIO

csv = """Name     UniqueID    Status
Apple    1121        Full
Orange   1122        Eaten
Apple    1123        Rotten"""

csv1 = """Name     UniqueID    Status
Apple    1121        Eaten
Orange   1122        Eaten
Pear     1233        Wiggly """

选项1 set_index+combine_first+reduce

def fruit_status1(f):
    return pd.read_csv(StringIO(f), delim_whitespace=True,
                       index_col=['UniqueID', 'Status'])

def update1(d1, d2):
    return d2.combine_first(d1)

reduce(update1, [fruit_status1(f) for f in [csv, csv1]])

选项2
pd.concat+drop_duplicates

def fruit_status2(f):
    return pd.read_csv(StringIO(f), delim_whitespace=True)

pd.concat([fruit_status2(f) for f in [csv, csv1]]) \
    .drop_duplicates(subset=['UniqueID', 'Status'])

网友

2楼 · 编辑于 2024-05-14 15:44:08

cat csv csv1 | awk '{if (!status[$2] || status[$2]!=$3) {print $0; status[$2]=$3} }'

解释

按顺序打印这些文件，然后逐行打印

cat csv csv1 | awk '{

保留数组键中的第二列（unique id），第三列作为值。然后检查，如果数组元素不存在（表示这是该行的第一次出现）或值不等于第三个（表示该值已更改）

if (!status[$2] || status[$2]!=$3) {

然后只需打印行并设置数组值

print $0;status[$2]=$3

如果结束

}

awk结束 }'

相关问题更多 >

编程相关推荐

热门问题

热门文章

包含CSV文件，但按2列过滤重复项

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >