Python从csv-fi中消除正则表达式匹配

2024-04-29 09:10:30 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个文件'in.csv',其中有许多条目,如下所示:

[Part 1: A]
Was hab’ ich nur getan?
Hab mich selbst nie hinterfragt
Wer bin ich, wer bin ich, wer bin ich, was bin ich bloß?
Aaaah - wer bin ich, was bin ich bloß?
Ging es all die Zeit lang wirklich nur um mich?
Nur um mich, nur um mich, nur um mich?
Denk’ ich wirklich immer nur an mich?
Nur an mich, nur an mich, nur an mich?

[Part 2: T]
Ich bin so horrible, horrible, horrible
Fehler einzusehen ist mir nicht possible, possible, possible
Jaaah - doch ich denk’ jeden Tag an all den Shit, den ich getan hab’
Warum unterschätz’ ich meinen Impact auf die andern?
Homie, sag mir, warum ficke ich mein Karma
Und geb kein’ Fick auf alles, was die Stimme in mir labert?
Blockiert mich da mein Ego oder weiß ich es nicht besser?
Mann, wann verdammt fühl ich mich bereit etwas zu ändern?
Warum lass’ ich einfach nichts mehr an mich ran?
Warum lass’ ich selbst mich selbst nicht an mich ran?
,1

(...)

我想找出并消除所有这种模式:

match = "[\(\[].*?[\)\]]"

我正在尝试:

with open('in.csv', 'rb') as in_file, open('out.csv', 'wb') as out_file:
     reader = csv.reader(in_file, delimiter='\t')
     for item in list(reader):
         re.sub(match, ' ', item, flags=re.MULTILINE)      
         out_file.write(item)

但它不起作用。如何找到并消除所有[]


Tags: csvinanbinumfilemirwas
1条回答
网友
1楼 · 发布于 2024-04-29 09:10:30

问题是您对结果没有做任何处理,表达式是正确的:

with open('in.csv', 'rb') as in_file, open('out.csv', 'wb') as out_file:
     reader = csv.reader(in_file, delimiter='\t')
     for item in list(reader):
         item = re.sub(match, ' ', item, flags=re.MULTILINE) 
         #  -^ -     
         out_file.write(item)

sub函数不会更改原始字符串,而是返回一个新的副本,因此您需要捕获它。你甚至可以通过添加锚来改善你的表情:

^[\(\[].*?[\)\]]

它大大减少了所需的步骤(10倍!),见a demo on regex101.com

相关问题 更多 >