ParserError:标记数据时出错。C错误：第4行应该有7个字段，读取csv文件pandas时出现10个错误

superkingdom:Bacteria , phylum:Actinobacteria , class:Actinobacteria , order:Corynebacteriales , family:Corynebacteriaceae , genus:Corynebacterium , species:Corynebacterium efficiens 1 superkingdom:Bacteria , phylum:Proteobacteria , class:Alphaproteobacteria , order:Rhizobiales , family:Aurantimonadaceae , genus:Aurantimonas , species:Aurantimonas manganoxydans 1 superkingdom:Bacteria , phylum:Proteobacteria , subphylum:delta/epsilon subdivisions , class:Deltaproteobacteria , no rank:unclassified Deltaproteobacteria , genus:Candidatus Entotheonella 1 superkingdom:Bacteria , phylum:Proteobacteria , class:Gammaproteobacteria , order:Pseudomonadales , family:Pseudomonadaceae , genus:Pseudomonas , species group:Pseudomonas syringae group , species subgroup:Pseudomonas syringae group genomosp. 2 , species:Pseudomonas amygdali , no rank:Pseudomonas amygdali pv. tabaci 1 superkingdom:Bacteria , phylum:Actinobacteria , class:Actinobacteria , order:Corynebacteriales , family:Nocardiaceae , genus:Rhodococcus , species:Rhodococcus wratislaviensis 1 superkingdom:Bacteria , phylum:Firmicutes , class:Clostridia , order:Clostridiales , family:Peptostreptococcaceae , genus:Peptoclostridium , species:Peptoclostridium difficile1

--------------------------------------------------------------------------- ParserError Traceback (most recent call last) <ipython-input-34-72c0ecaf0513> in <module> ----> 1 df1 = pd.read_csv('panda_error.csv', header=None, sep=',') /opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision) 683 ) 684 --> 685 return _read(filepath_or_buffer, kwds) 686 687 parser_f.__name__ = name /opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in _read(filepath_or_buffer, kwds) 461 462 try: --> 463 data = parser.read(nrows) 464 finally: 465 parser.close() /opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in read(self, nrows) 1152 def read(self, nrows=None): 1153 nrows = _validate_integer("nrows", nrows) -> 1154 ret = self._engine.read(nrows) 1155 1156 # May alter columns / col_dict /opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in read(self, nrows) 2057 def read(self, nrows=None): 2058 try: -> 2059 data = self._reader.read(nrows) 2060 except StopIteration: 2061 if self._first_chunk: pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.read() pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory() pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_rows() pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._tokenize_rows() pandas/_libs/parsers.pyx in pandas._libs.parsers.raise_parser_error() ParserError: Error tokenizing data. C error: Expected 7 fields in line 4, saw 10

2条回答

网友

1楼 · 编辑于 2024-05-16 00:52:48

数据处理工具。这意味着每一行应该包含相同数量的字段。在CSV输入的情况下，还有一个要求，即字段每行中的顺序应该是相同的。在

但是您的输入文件实际上无法满足这两个要求。在

前2行（可能还有大多数其他行）有7个字段： 超王国，门，类，目，科，属和种。在

第三行包含： 超界，门，亚门，纲，无秩和属。所以：

有额外的字段（亚系和无秩）
你没有这样的领域，如秩序，家族和物种。在

这不会导致读取csv失败，只是因为字段的数量不超过前几行中的字段数（总共有6个字段）。在

但真正的问题是在第4行，其中有10字段。在

所以“普通”在这里绝不是一个好的选择。即使设置的列数足以读取所有行，属性将以难以阅读的方式“分散”在列中。在

任何基于列名分析这些数据的尝试也会失败，因为每列在不同的行中都有不同的信息。在

另一个问题是，用逗号分隔的数据将包含。 供应细菌王国，即：

文本应该是列（属性）名称
结肠
实际值。在

要克服这些问题，请尝试另一种方法来读取输入文件：

使用Read_csv读取您的输入文件，但作为一个单个文件 列（sep设置为未使用的字符）。在
```
df = pd.read_csv('input.csv', sep='|', names=['col1'])
```

下一步，生成一个可以通过一个程序是extractall（需要import re）：

df2 = df.col1.str.extractall(
    r'(?P<name>[A-Z ]+[A-Z]):(?P<value>[A-Z /]+[A-Z])', flags=re.I)\
    .reset_index(level=1, drop=True)

如果你不擅长正则表达式，读一点关于它们的知识。在

结果是一个包含2列的数据帧：

name—属性名，例如超级王国
value属性值，例如细菌。在

索引与df中的相同-它是源行号，从0开始。在

对于示例数据，结果如下：

                name                                value
0       superkingdom                             Bacteria
0             phylum                       Actinobacteria
0              class                       Actinobacteria
0              order                    Corynebacteriales
0             family                   Corynebacteriaceae
0              genus                      Corynebacterium
0            species            Corynebacterium efficiens
1       superkingdom                             Bacteria
1             phylum                       Proteobacteria
1              class                  Alphaproteobacteria
1              order                          Rhizobiales
1             family                    Aurantimonadaceae
1              genus                         Aurantimonas
1            species           Aurantimonas manganoxydans
2       superkingdom                             Bacteria
2             phylum                       Proteobacteria
2          subphylum           delta/epsilon subdivisions
2              class                  Deltaproteobacteria
2            no rank     unclassified Deltaproteobacteria
2              genus             Candidatus Entotheonella
3       superkingdom                             Bacteria
3             phylum                       Proteobacteria
3              class                  Gammaproteobacteria
3              order                      Pseudomonadales
3             family                     Pseudomonadaceae
3              genus                          Pseudomonas
3      species group           Pseudomonas syringae group
3   species subgroup  Pseudomonas syringae group genomosp
3            species                 Pseudomonas amygdali
3            no rank              Pseudomonas amygdali pv
4       superkingdom                             Bacteria
4             phylum                       Actinobacteria
4              class                       Actinobacteria
4              order                    Corynebacteriales
4             family                         Nocardiaceae
4              genus                          Rhodococcus
4            species          Rhodococcus wratislaviensis
5       superkingdom                             Bacteria
5             phylum                           Firmicutes
5              class                           Clostridia
5              order                        Clostridiales
5             family                Peptostreptococcaceae
5              genus                     Peptoclostridium
5            species           Peptoclostridium difficile

如果您希望将这些数据作为一个表，并将每个名称转换对于相应的列，运行：

df3 = df2.set_index('name', append=True).unstack(fill_value='')
df3.columns = df3.columns.droplevel()

看看结果，我认为它会比任何其他尝试。在

网友
2楼 · 编辑于 2024-05-16 00:52:48

This solution为我工作
### Loop the data lines with open("panda_error.csv", 'r') as temp_f: # get No of columns in each line col_count = [ len(l.split(",")) for l in temp_f.readlines() ] ### Generate column names (names will be 0, 1, 2, ..., maximum columns - 1) column_names = [i for i in range(0, max(col_count))] ### Read csv df = pd.read_csv("panda_error.csv", header=None, delimiter=",", names=column_names)

相关问题更多 >

编程相关推荐

热门问题

热门文章