在python中过滤CSV文件

2条回答

网友

1楼 · 编辑于 2024-04-28 02:34:50

我想有些东西可以满足你的需要。它不像Peter的回答那么简单，因为它使用Python的csv模块来处理文件。它可能会被重写和简化，像他那样把文件当作纯文本来处理，但这应该很容易。在

import csv
import re
import sys

csvdictreader = csv.DictReader(sys.stdin, delimiter=',')
csvdictwriter = csv.DictWriter(sys.stdout, fieldnames=csvdictreader.fieldnames, delimiter=',')
csvdictwriter.writeheader()
targets = [name for name in csvdictreader.fieldnames if name.startswith('HLA-')]

for rowfields in csvdictreader:
    keep = True
    for field in targets:
        value = rowfields[field]
        if re.match(r'^DQB1\*\d\d$', value): # gene resolution too low?
            keep = False
            break # quit processing target fields
        else: # reduce gene resolution if too high
              # by only keeping first two alles if three are present
            rowfields[field] = re.sub(r'^DQB1\*(\d\d):(\d\d):(\d\d)$',
                                      r'DQB1*\1:\2', value)
    if keep:
        csvdictwriter.writerow(rowfields)

对我来说最困难的是决定你想做什么。在

网友

2楼 · 编辑于 2024-04-28 02:34:50

下面是一个非常简单的过滤器：

import sys

for line in sys.stdin:
  line = line.replace( ',DQB1*03:02:01,', ',DQB1*03:02,' )

  if line.find( ',DQB1*03,' ) == -1:
    sys.stdout.write( line )

或者，如果您想使用正则表达式

^{pr2}$

把它当作

python script.py < data.csv

相关问题更多 >

编程相关推荐

热门问题

热门文章

在python中过滤CSV文件

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >