我正在尝试使用Python将MTurk-in中的.log
文件解析为包含行和列的.csv
文件。我的数据看起来像:
P:,14142,GREEN,800,9;R:,14597,7,y,NaN,Correct;P:,15605,#E5DC22,800,9;R:,16108,7,f,NaN,Correct;P:,17115,GREEN,100,9;R:,17548,7,y,NaN,Correct;P:,18552,#E5DC22,100,9;R:,18972,7,f,NaN,Correct;P:,19979,GREEN,800,9;R:,20379,7,y,NaN,Correct;P:,21387,#E5DC22,800,9;R:,21733,7,f,NaN,Correct;P:,22740,RED,100,9;R:,23139,7,y,NaN,False;P:,24147,BLUE,100,9;R:,24547,7,f,NaN,False;P:,25555,RED,800,9;R:,26043,7,b,NaN,Correct;P:,27051,BLUE,800,9;
目前,我有这个,它把所有的东西都放在列中:
import pandas as pd
from pandas import read_table
log_file = '3BF51CHDTWYBE3LE8DZRA0R5AFGH0H.log'
df = read_table(log_file, sep=';|,', header=None, engine='python')
像这样:
P|14142|GREEN|800|9|R|14597|7|y|NaN|Correct|P|15605|#E5DC22|800|9|R|16108
但是,我似乎无法将其分成多行,因此它看起来更像这样:
P|14142|GREEN|800|9|R|14597|7|y|NaN|Correct|
|P|15605|#E5DC22|800|9|R|16108
也就是说,所有的“p”都在一列中,所有的颜色都在另一列中,“r”等。。你知道吗
另一个更快的解决方案:
首先从第一列^{} 索引,然后通过^{} 删除triling } 创建} :
,
,并通过^{DataFrame
。最后需要将0
添加到列名和^{时间安排:
你可以用
读取文件(例如,
'log.txt'
),假设行以';'
终止,行中的分隔符是':'
。你知道吗不幸的是,您的第二列现在将包含逗号,您希望在逻辑上分隔逗号。您可以沿行拆分逗号,并将结果连接到第一列:
相关问题 更多 >
编程相关推荐