Python csv模块错误：索引超出范围

gene_id, ENSDARG00000104632, gene_version, 2, gene_name, RERG gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186 gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186 gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186 gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186

3条回答

网友

1楼 · 编辑于 2024-05-16 02:49:53

I want the 2nd and 6th column, but only from the rows which have "gene_name" in the 5th column.

我喜欢Python。但最自然的表达方式是

awk '$5 ~ /gene_name/ {print $2, $6}'

让我们回到python。这不是你想写的：

^{pr2}$

将其改为print(row[1], row[5])。在

有些行只有少量列。因此，您需要将row[4]或row[5]的取消引用包装在一个if语句中，以验证它是否足够长：

    if len(row) > 5:
        ...

网友

2楼 · 编辑于 2024-05-16 02:49:53

显然，有些行没有包含足够的列。试试这个：

import csv

with open('input.csv', 'r') as f:

    reader = csv.reader(f)

    for row in reader:
        try:
            if 'gene_name' in row[4]:
                print('%s, %s' % (row[1].strip(), row[5].strip()))
        except IndexError:
            continue

…输出：

ENSDARG00000104632, RERG

网友

3楼 · 编辑于 2024-05-16 02:49:53

正如锑指出的，听起来好像您的数据中偶尔会丢失一些值，而csv无法轻松处理这些值。我建议使用像pandas这样的库，它有一个read_csv函数，可以处理丢失的值。以这些数据为例：

gene_id, ENSDARG00000104632, gene_version, 2, gene_name, RERG
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id,
gene_id, ENSDARG00000104632, gene_version, , transcript_id,
gene_id, ENSDARG00000104632, gene_version, 2, transcript_id, ENSDART00000166186

其内容如下：

^{pr2}$

屈服：

                    1                   5
0  ENSDARG00000104632                RERG
1  ENSDARG00000104632  ENSDART00000166186
2  ENSDARG00000104632  ENSDART00000166186
3  ENSDARG00000104632  ENSDART00000166186
4  ENSDARG00000104632  ENSDART00000166186
5  ENSDARG00000104632  ENSDART00000166186
6  ENSDARG00000104632  ENSDART00000166186
7  ENSDARG00000104632                 NaN
8  ENSDARG00000104632                 NaN
9  ENSDARG00000104632  ENSDART00000166186

如你所愿。在

但是，如果缺少数据（如本例中所示），则只需删除以下行：

selected_data.dropna()

哪些输出：

                    1                   5
1  ENSDARG00000104632  ENSDART00000166186
2  ENSDARG00000104632  ENSDART00000166186
3  ENSDARG00000104632  ENSDART00000166186
4  ENSDARG00000104632  ENSDART00000166186
5  ENSDARG00000104632  ENSDART00000166186
6  ENSDARG00000104632  ENSDART00000166186
9  ENSDARG00000104632  ENSDART00000166186

（但是，这可能不是您想要的。）

参考文献

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

相关问题更多 >

编程相关推荐

热门问题

热门文章