如果列与特定字符串匹配，则在dataframe中删除行

def push_to_pg_weekly(key): total_rows = int(a.split()[0]) rows = 0 for chunk in pd.read_csv(key, sep="|", header=None, chunksize=100000): rows += len(chunk) chunk = chunk.dropna(axis=0) chunk = chunk[np.where( (chunk[0].astype('str').str.len()>1) & (chunk[1].astype('str').str.len()>1) & (chunk[4].astype('str').str.len()>4) & (chunk[4].astype('str').str.len()<8), True, False)] chunk[0] = ~chunk[0].str.contains("jr", na=False) chunk[1] = ~chunk[1].str.contains("jr", na=False) chunk.to_csv("/tmp/sample.csv", sep="|", header=None, index=False) connection = psycopg2.connect(connection details <here>) with connection.cursor() as cursor: connection.commit()

jane|doe|1969-01-01|F|926.0|1351127|E2sboFz4Mk2aGIKhD4vm6J9Jt3ZSoSdLm+0PCdWsJto=|YSILMFS5sPPZZF/KFroEHV77z1bMeiL/f4FqF2kj4Xc=|tNjgnby5zDbfT2SLsCCwhNBxobSDcCp7ws0zYVme5w4=|kk25p0lrp2T54Z3B1HM3ZQN0RM63rjqvewrwW5VhYcI=|cigna_TOKEN_ENCRYPTION_KEY jr|doe|1969-01-01|M|926.0|1351127|E2sboFz4Mk2aGIKhD4vm6J9Jt3ZSoSdLm+0PCdWsJto=|YSILMFS5sPPZZF/KFroEHV77z1bMeiL/f4FqF2kj4Xc=|tNjgnby5zDbfT2SLsCCwhNBxobSDcCp7ws0zYVme5w4=|kk25p0lrp2T54Z3B1HM3ZQN0RM63rjqvewrwW5VhYcI=|cigna_TOKEN_ENCRYPTION_KEY jane|sr|1969-01-01|F|926.0|1351127|E2sboFz4Mk2aGIKhD4vm6J9Jt3ZSoSdLm+0PCdWsJto=|YSILMFS5sPPZZF/KFroEHV77z1bMeiL/f4FqF2kj4Xc=|tNjgnby5zDbfT2SLsCCwhNBxobSDcCp7ws0zYVme5w4=|kk25p0lrp2T54Z3B1HM3ZQN0RM63rjqvewrwW5VhYcI=|cigna_TOKEN_ENCRYPTION_KEY

jane|doe|1969-01-01|F|926.0|1351127|E2sboFz4Mk2aGIKhD4vm6J9Jt3ZSoSdLm+0PCdWsJto=|YSILMFS5sPPZZF/KFroEHV77z1bMeiL/f4FqF2kj4Xc=|tNjgnby5zDbfT2SLsCCwhNBxobSDcCp7ws0zYVme5w4=|kk25p0lrp2T54Z3B1HM3ZQN0RM63rjqvewrwW5VhYcI=|cigna_TOKEN_ENCRYPTION_KEY

chunk[0] = ~chunk[0].str.contains("jr", “sr”, “|”, “||”, na=False) chunk[1] = ~chunk[1].str.contains("jr", “sr”, “|”, “||”, na=False) or searchfor = [‘jr’, ’sr’,’|’,’||’] chunk[0] = ~chunk.chunk[0].str.contains('|'.join(searchfor))] chunk[1] = ~chunk.chunk[1].str.contains('|'.join(searchfor))]

1条回答

网友

1楼 · 发布于 2024-05-20 01:32:18

实际上，您忘记了将布尔序列（真/假）传递到括号[...]中，或者更好地使用.loc[...]。相反，您将这些块列中的值重新分配给条件的结果，但不将条件逻辑地应用于数据帧

因此，考虑调用这两个条件的交集{{CD3}}：

# ASSIGN BOOLEAN SERIES
fname_jr = ~chunk.loc[0].str.contains("jr", na=False)
lname_jr = ~chunk.loc[1].str.contains("jr", na=False)

# PASS INTO .loc
chunk_sub = chunk.loc[fname_jr & lname_jr]
chunk_sub

#       0    1   ...                                            9                          10
# 0  jane  doe  ...  kk25p0lrp2T54Z3B1HM3ZQN0RM63rjqvewrwW5VhYcI=  cigna_TOKEN_ENCRYPTION_KEY
# 2  jane   sr  ...  kk25p0lrp2T54Z3B1HM3ZQN0RM63rjqvewrwW5VhYcI=  cigna_TOKEN_ENCRYPTION_KEY

要集成多个选择，请调用str.join将项目列表与管道分隔符组合：

# ASSIGN BOOLEAN SERIES
fname_jr_sr = ~chunk[0].str.contains("|".join(["sr", "jr"]), na=False)
lname_jr_sr = ~chunk[1].str.contains("|".join(["sr", "jr"]), na=False)

# PASS INTO .loc
chunk_sub = chunk.loc[fname_jr_sr & lname_jr_sr]
chunk_sub
#       0    1   ...                                            9                          10
# 0  jane  doe  ...  kk25p0lrp2T54Z3B1HM3ZQN0RM63rjqvewrwW5VhYcI=  cigna_TOKEN_ENCRYPTION_KEY

与此相关，您的np.where调用是不必要的，因为.loc将在布尔级数上运行。由于管道符号是字符串匹配运算符，请确保也使用反斜杠转义|。总共：

chunk = chunk.loc[(chunk[0].astype('str').str.len()>1) & 
                  (chunk[1].astype('str').str.len()>1) &
                  (chunk[4].astype('str').str.len()>4) &
                  (chunk[4].astype('str').str.len()<8) & 
                  ~chunk[0].str.contains("|".join(["sr", "jr", "\\|", "\\|\\|"]), na=False) & 
                  ~chunk[1].str.contains("|".join(["sr", "jr", "\\|", "\\|\\|"]), na=False)]

chunk.to_csv("/tmp/sample.csv", sep="|", header=None, index=False)

相关问题更多 >

编程相关推荐

热门问题

热门文章