Pandas读取CSV时不遵循正则分隔符

from io import StringIO import pandas as pd s = '''ID,Level,QID,Text,ResponseID,responseText,date_key,last 375280046,S,D3M,Which is your favorite?,D5M0,option 1,2012-08-08 00:00:00,ynot 375280046,S,D3M,How often? (at home, at work, other),D3M0,Work,2010-03-31 00:00:00,okkk 375280046,M,A78,Do you prefer a, b, or c?,A78C,a,2010-03-31 00:00:00,abc 376918925,M,A78,Which ONE (select only one),A78E,Milk,2004-02-02 00:00:00,launch Wed., ''' df = pd.read_csv(StringIO(s), sep=r',(?!\s)')

ID Level QID Text ResponseID \ 0 375280046 S D3M Which is your favorite? D5M0 1 375280046 S D3M How often? (at home, at work, other) D3M0 2 375280046 M A78 Do you prefer a, b, or c? A78C 3 376918925 M A78 Which ONE (select only one) A78E responseText date_key last 0 option 1 2012-08-08 00:00:00 ynot 1 Work 2010-03-31 00:00:00 okkk 2 a 2010-03-31 00:00:00 abc 3 Milk 2004-02-02 00:00:00 launch Wed.,

2条回答

网友

1楼 · 编辑于 2024-05-14 18:05:46

read_csv在尝试识别分隔符之前，似乎正在从字符串末尾剥离空格。可以通过修改regex来解决这一问题，同时检查在文件结尾之前标识的逗号：

pd.read_csv(StringIO(s), sep=r',(?!\s|\Z)', engine='python')
Out[347]: 
          ID Level  QID                                  Text ResponseID  \
0  375280046     S  D3M               Which is your favorite?       D5M0   
1  375280046     S  D3M  How often? (at home, at work, other)       D3M0   
2  375280046     M  A78             Do you prefer a, b, or c?       A78C   
3  376918925     M  A78           Which ONE (select only one)       A78E   

  responseText             date_key          last  
0     option 1  2012-08-08 00:00:00          ynot  
1         Work  2010-03-31 00:00:00          okkk  
2            a  2010-03-31 00:00:00           abc  
3         Milk  2004-02-02 00:00:00  launch Wed.,

网友

2楼 · 编辑于 2024-05-14 18:05:46

让我们看看这个SO Post。在

使用上面解释的正则表达式r',(?=\S)'。在

from io import StringIO
import pandas as pd

s = '''ID,Level,QID,Text,ResponseID,responseText,date_key,last
375280046,S,D3M,Which is your favorite?,D5M0,option 1,2012-08-08 00:00:00,ynot
375280046,S,D3M,How often? (at home, at work, other),D3M0,Work,2010-03-31 00:00:00,okkk
375280046,M,A78,Do you prefer a, b, or c?,A78C,a,2010-03-31 00:00:00,abc
376918925,M,A78,Which ONE (select only one),A78E,Milk,2004-02-02 00:00:00,launch Wed., '''

df = pd.read_csv(StringIO(s), sep=r',(?=\S)')

输出：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章