实时读取动态增长文件,提取两列并绘制图表

4 投票
3 回答
3585 浏览
提问于 2025-04-15 15:53

如何读取一个1GB的文件,这个文件里记录了时间序列数据,并且生成一个实时图表,图表中有两列数据(一个是时间,另一个是数字)?我注意到你们有不同的方法可以实时跟踪这个文件的变化。

3 个回答

2

这里有一个Unix管道,它分成三个部分:尾部处理器(tail'er)、过滤器(gawk)和绘图工具(python)。

tail -f yourfile.log | gawk '/PCM1/{print $21; fflush();}' | python -u tailplot.py

这是一个Python脚本。你可以给它输入1列(y)或者2列(x y)数据。如果你不使用gawk,一定要弄清楚怎么关闭缓冲。比如可以用sed -u

pa-poca$ cat ~/tailplot.py

import math
import time
import sys
import pylab

pylab.ion()
pylab.xlabel("X")
pylab.ylabel("Y")

x = []
y = []
counter = 1
while True :
    line = sys.stdin.readline()
    a = line.split()
    if len(a) == 2:
      x.append(a[0])
      y.append(a[1])
    elif len(a) == 1:
      x.append(counter)
      y.append(a[0])
      counter = counter + 1
    pylab.plot(x, y, 'b')
    pylab.draw()
2

正如约翰提到的,你可以把尾部输出放到你的文件里,但如果你因为某些原因想在文件里处理所有内容,并且还想要一个动态图的例子,下面就是了。

import math
import time
import pylab  

def getDataTest(filePath):
    s = 0
    inc = .05
    x_list=pylab.arange(0, 5.0, 0.01)
    while 1:
        s += inc
        if abs(s) > 1:
            inc=-inc

        y_list = []
        for x in x_list:
            x += s
            y = math.cos(2*math.pi*x) * math.exp(-x)
            y_list.append(y)

        yield x_list, y_list

def tailGen(filePath):
    f = open(filePath)
    #f.seek(0, 2) # go to end
    for line in f: yield line
    while 1:
        where = f.tell()
        line = f.readline()
        if line:
            yield line
        else:
            time.sleep(.1)
            f.seek(where)

def getData(filePath):
    x_list = []
    y_list = []
    maxCount = 10
    for line in tailGen(filePath):
        # get required columns
        tokens = line.split(",")
        if len(tokens) != 2:
            continue
        x, y = tokens
        x_list.append(x)
        y_list.append(y)
        if len(x_list) > maxCount:
            x_list = x_list[-maxCount:]
            y_list = x_list[-maxCount:]
            yield x_list, y_list

pylab.ion()
pylab.xlabel("X")
pylab.ylabel("Y")

dataGen = getData("plot.txt") # getDataTest("plot.txt") #
x_list, y_list = dataGen.next()
plotData, = pylab.plot(x_list, y_list, 'b')
#pylab.show()
pylab.draw()
for (x_list, y_list) in dataGen:
    time.sleep(.1)
    plotData, = pylab.plot(x_list, y_list, 'b')
    pylab.draw()

你可以从中挑选元素,我觉得这会解决你的问题。

7

听起来这活儿很适合用RRDTool来做。

不过如果你想继续用Python的话,我建议用tail命令把数据流进你的程序(这是假设文件是持续写入的,如果不是的话,直接用Python的open()函数就可以了)。

tail -F data.log | python myprogram.py

myprogram.py可能看起来像这样:

import sys

p = ... # create a pylab plot instance 
for line in sys.stdin:
    elements = line.split(',') # or whatever separator your file has in it
    p.add(element[0], element[1]) # add data to the pylab plot instance

撰写回答