Python CSV：如果一行满足一个条件，如何忽略编写类似的行？

2条回答

网友

1楼 · 编辑于 2024-05-13 22:18:55

我不能百分之百肯定我了解你的需要。不过，这可能会让你走上正轨。我正在使用^{}模块：

data = """
Date Digitized |  Series  | Episode Number | Title | Format
       -|     |        |   -|    
01-01-2016     | Series A |       101      |       |  VHS
               | Series A |       101      |       |  Beta
               | Series A |       101      |       |  U-Matic
               | Series B |       101      |       |  VHS"""
# useful module for treating csv files (and many other)
import pandas as pd
# module to handle data as it was a csv file
import io
# read the csv into pandas DataFrame
# use the 0 row as a header
# fields are separated by |
df = pd.read_csv(
    io.StringIO(data),
    header=0,
    sep="|"
)
# there is a bit problem with white spaces
# remove white space from the column names
df.columns = [x.strip() for x in df.columns]
# remove white space from all string fields
df = df.applymap(lambda x: x.strip() if type(x) == str else x)
# finally choose the subset we want
# for some reason pandas guessed the type of Episode Number wrong
# it should be integer, this probably won't be a problem when loading 
# directly from file
df = df[~((df["Series"] == "Series A") & (df["Episode Number"] == "101"))]
# print the result
print(df)
#     Date Digitized      Series    Episode Number    Title    Format
# 0         -                      -      
# 4                     Series B               101                VHS

请随意询问，希望我能够根据您的实际需要更改代码或以任何其他方式提供帮助。你知道吗

网友

2楼 · 编辑于 2024-05-13 22:18:55

最简单的方法是对CSV文件集进行两次读取：一次读取所有数字化磁带的列表，第二次读取不在数字化列表中的所有磁带的唯一列表：

# build list of digitized tapes
digitized = []
for name in names:
    with open("%s_.csv" % name, "rb") as source:
        reader = csv.reader(source)
        next(reader) # skip header
        for row in reader:
            if row[0] and ((row[1], row[2]) not in digitized):
                digitized.append((row[1], row[2]))

# build list of non-digitized tapes
digitize_me = []
for name in names:
    with open("%s_.csv" % name, "rb") as source:
        reader = csv.reader(source)
        header = next(reader)[1:3] # skip / save header
        for row in reader:
            if not row[0] and ((row[1], row[2]) not in digitized + digitize_me):
                digitize_me.append((row[1], row[2]))

# write non-digitized tapes to 'digitize.csv`
with open("digitize.csv","wb") as result:
    writer = csv.writer(result)
    writer.writerow(header)
    for tape in digitize_me:
        writer.writerow(tape)

输入文件1:

Date Digitized,Series,Episode Number,Title,Format
01-01-2016,Series A,101,,VHS
,Series A,101,,Beta
,Series C,101,,Beta
,Series D,102,,VHS
,Series B,101,,U-Matic

输入文件2:

Date Digitized,Series,Episode Number,Title,Format
,Series B,101,,VHS
,Series D,101,,Beta
01-01-2016,Series C,101,,VHS

输出：

Series,Episode Number
Series D,102
Series B,101
Series D,101

根据OP评论

header = next(reader)[1:3] # skip / save header

有两个目的：

假设每个csv文件都以一个头文件开头，我们不希望读取标题行，就好像它包含了关于我们磁带的数据，所以我们在这种意义上需要“跳过”标题行
但我们还想保存标题的相关部分，以备将来使用我们编写输出csv文件。我们希望那个文件有一个头也。因为我们只写series和episode number，它们是row字段1和2，所以我们只分配那个片， i、例如，[1:3]，将头行的

让一行代码服务于两个完全不相关的目的并不是真正的标准，这就是为什么我对它进行了注释。当header只需要分配一次时，它还会多次分配给header（假设有多个输入文件）。也许写这一节的更简洁的方法是：

# build list of non-digitized tapes
digitize_me = []
header = None
for name in names:
    with open("%s_.csv" % name, "rb") as source:
        reader = csv.reader(source)
        if header:
            next(reader) # skip header
        else:
            header = next(reader)[1:3] # read header
        for row in reader:
            ...

问题是哪种形式更具可读性。无论哪种方法都很接近，但我认为将5行合并为一行，可以将重点放在代码中更突出的部分。下次我可能会用另一种方式。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python CSV：如果一行满足一个条件，如何忽略编写类似的行？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >