ParserError:标记数据时出错。C错误：第4行应该有7个字段，读取csv文件pandas时出现10个错误问题的回答

ParserError:标记数据时出错。C错误：第4行应该有7个字段，读取csv文件pandas时出现10个错误

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我正在尝试使用pandas读取<code>csv</code>文件 <pre><code>df1 = pd.read_csv('panda_error.csv', header=None, sep=',') </code></pre> 但我得到了一个错误： ^{pr2}$ 为了重现性，这里是csv文件<code>panda_error.csv</code> <pre><code>superkingdom:Bacteria , phylum:Actinobacteria , class:Actinobacteria , order:Corynebacteriales , family:Corynebacteriaceae , genus:Corynebacterium , species:Corynebacterium efficiens 1 superkingdom:Bacteria , phylum:Proteobacteria , class:Alphaproteobacteria , order:Rhizobiales , family:Aurantimonadaceae , genus:Aurantimonas , species:Aurantimonas manganoxydans 1 superkingdom:Bacteria , phylum:Proteobacteria , subphylum:delta/epsilon subdivisions , class:Deltaproteobacteria , no rank:unclassified Deltaproteobacteria , genus:Candidatus Entotheonella 1 superkingdom:Bacteria , phylum:Proteobacteria , class:Gammaproteobacteria , order:Pseudomonadales , family:Pseudomonadaceae , genus:Pseudomonas , species group:Pseudomonas syringae group , species subgroup:Pseudomonas syringae group genomosp. 2 , species:Pseudomonas amygdali , no rank:Pseudomonas amygdali pv. tabaci 1 superkingdom:Bacteria , phylum:Actinobacteria , class:Actinobacteria , order:Corynebacteriales , family:Nocardiaceae , genus:Rhodococcus , species:Rhodococcus wratislaviensis 1 superkingdom:Bacteria , phylum:Firmicutes , class:Clostridia , order:Clostridiales , family:Peptostreptococcaceae , genus:Peptoclostridium , species:Peptoclostridium difficile1 </code></pre> 我不太清楚为什么会发生这种情况，也不知道该如何解决。其他答案只建议1。忽略使用<code>error_bad_lines=False</code>的麻烦行，我不想这样做，或者2。特定于特定场景。在 以下是完整的错误消息（如果这有帮助）： <pre><code>--------------------------------------------------------------------------- ParserError Traceback (most recent call last) <ipython-input-34-72c0ecaf0513> in <module> ----> 1 df1 = pd.read_csv('panda_error.csv', header=None, sep=',') /opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, skipfooter, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, cache_dates, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, doublequote, escapechar, comment, encoding, dialect, error_bad_lines, warn_bad_lines, delim_whitespace, low_memory, memory_map, float_precision) 683 ) 684 --> 685 return _read(filepath_or_buffer, kwds) 686 687 parser_f.__name__ = name /opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in _read(filepath_or_buffer, kwds) 461 462 try: --> 463 data = parser.read(nrows) 464 finally: 465 parser.close() /opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in read(self, nrows) 1152 def read(self, nrows=None): 1153 nrows = _validate_integer("nrows", nrows) -> 1154 ret = self._engine.read(nrows) 1155 1156 # May alter columns / col_dict /opt/anaconda3/lib/python3.7/site-packages/pandas/io/parsers.py in read(self, nrows) 2057 def read(self, nrows=None): 2058 try: -> 2059 data = self._reader.read(nrows) 2060 except StopIteration: 2061 if self._first_chunk: pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.read() pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_low_memory() pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._read_rows() pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._tokenize_rows() pandas/_libs/parsers.pyx in pandas._libs.parsers.raise_parser_error() ParserError: Error tokenizing data. C error: Expected 7 fields in line 4, saw 10 </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

数据处理工具。这意味着每一行应该包含相同数量的字段。在CSV输入的情况下，还有一个要求，即字段每行中的顺序应该是相同的。在 但是您的输入文件实际上无法满足这两个要求。在 前2行（可能还有大多数其他行）有7个字段： 超王国，门，类，目，科，属和种。在 第三行包含： 超界，门，亚门，纲，无秩和属。所以： <ul> <li>有额外的字段（亚系和无秩）</li> <li>你没有这样的领域，如秩序，家族和物种。在</li> </ul> 这不会导致读取csv失败，只是因为字段的数量不超过前几行中的字段数（总共有6个字段）。在 但真正的问题是在第4行，其中有10字段。在 所以“普通”在这里绝不是一个好的选择。即使设置的列数足以读取所有行，属性将以难以阅读的方式“分散”在列中。在 任何基于列名分析这些数据的尝试也会失败，因为每列在不同的行中都有不同的信息。在 另一个问题是，用逗号分隔的数据将包含。 供应细菌王国，即： <ul> <li>文本应该是列（属性）名称</li> <li>结肠</li> <li>实际值。在</li> </ul> 要克服这些问题，请尝试另一种方法来读取输入文件： <ol> <li>使用Read_csv读取您的输入文件，但作为一个单个文件 列（sep设置为未使用的字符）。在 <pre><code>df = pd.read_csv('input.csv', sep='|', names=['col1']) </code></pre></li> <li>下一步，生成一个可以通过一个程序是extractall（需要import re）： <pre><code>df2 = df.col1.str.extractall( r'(?P<name>[A-Z ]+[A-Z]):(?P<value>[A-Z /]+[A-Z])', flags=re.I)\ .reset_index(level=1, drop=True) </code></pre></li> </ol> 如果你不擅长正则表达式，读一点关于它们的知识。在 结果是一个包含2列的数据帧： <ul> <li>name—属性名，例如超级王国</li> <li>value属性值，例如细菌。在</li> </ul> 索引与df中的相同-它是源行号，从0开始。在 对于示例数据，结果如下： <pre><code> name value 0 superkingdom Bacteria 0 phylum Actinobacteria 0 class Actinobacteria 0 order Corynebacteriales 0 family Corynebacteriaceae 0 genus Corynebacterium 0 species Corynebacterium efficiens 1 superkingdom Bacteria 1 phylum Proteobacteria 1 class Alphaproteobacteria 1 order Rhizobiales 1 family Aurantimonadaceae 1 genus Aurantimonas 1 species Aurantimonas manganoxydans 2 superkingdom Bacteria 2 phylum Proteobacteria 2 subphylum delta/epsilon subdivisions 2 class Deltaproteobacteria 2 no rank unclassified Deltaproteobacteria 2 genus Candidatus Entotheonella 3 superkingdom Bacteria 3 phylum Proteobacteria 3 class Gammaproteobacteria 3 order Pseudomonadales 3 family Pseudomonadaceae 3 genus Pseudomonas 3 species group Pseudomonas syringae group 3 species subgroup Pseudomonas syringae group genomosp 3 species Pseudomonas amygdali 3 no rank Pseudomonas amygdali pv 4 superkingdom Bacteria 4 phylum Actinobacteria 4 class Actinobacteria 4 order Corynebacteriales 4 family Nocardiaceae 4 genus Rhodococcus 4 species Rhodococcus wratislaviensis 5 superkingdom Bacteria 5 phylum Firmicutes 5 class Clostridia 5 order Clostridiales 5 family Peptostreptococcaceae 5 genus Peptoclostridium 5 species Peptoclostridium difficile </code></pre> 如果您希望将这些数据作为一个表，并将每个名称转换对于相应的列，运行： <pre><code>df3 = df2.set_index('name', append=True).unstack(fill_value='') df3.columns = df3.columns.droplevel() </code></pre> 看看结果，我认为它会比任何其他尝试。在

ParserError:标记数据时出错。C错误：第4行应该有7个字段，读取csv文件pandas时出现10个错误

1 个回答

相关Python问题