我需要处理整个2018年每20秒测量的数据,原始文件有以下结构:
约会时间有很多垃圾
几排
样品数量
数据
约会时间有很多垃圾
等等
我想为它制作一个数据帧,或者为每个数据块至少制作一个数据帧(其大小编码为样本量),以节省测量时间。你知道吗
我怎么能忽略所有其他数据垃圾?我知道它是定期写的(周期=样本数量),但是: -我不知道文件里有多少字符串 -我不想使用显式方法文件.getline()在循环中,因为它将无休止地工作(特别是在python中),而我没有足够的计算能力来使用它
有没有什么方法可以在pandas或其他lib中周期性地跳过行?不然我怎么解决呢?你知道吗
我的数据有一个例子:
https://drive.google.com/file/d/1OefLwpTaytL7L3WFqtnxg0mDXAljc56p/view?usp=sharing
我想得到类似于pic+附加列上datatable的dataframe,该列带有日期时间,没有技术行
使用^{} ,其中下面的
N
表示read every N lines
只需数一数文件中有多少行,然后列出应该跳过的行(可能称为无用的行)熊猫.read\u csv(…,skiprows=无用的行)。你知道吗
我的问题是芯片排数。 有几种方法可以做到:
在Linux命令“wc-l”(下面是一个如何将其放入代码中的指令:Running "wc -l <filename>" within Python Code)
发电机。我在相关行中有一个键:它在最后一列中。不是很有用,但对我有帮助。所以我可以用它来计算字符串,看起来大约是500000行,需要0.00011来计算
我把你的数据重复了三遍。听起来您需要每4行(不是从0开始),因为这就是数据所在的位置。在documentation的
skipsrows
中,它说。你知道吗那么如果我们把一个
not in
传递给lambda
函数呢?这就是我下面要做的。 我正在创建一个我希望保留的值列表。并将not in
传递给skiprows
参数。在英语中,跳过不是每四行的所有行。你知道吗相关问题 更多 >
编程相关推荐