从集群收集基本性能数据的包
QULo的Python项目详细描述
简介
qulo是一个简单的集群监视工具。它是用python开发的。
包中包含:
- qagent:可自定义的服务/守护进程,它从 集群。它在本地运行并从传感器收集数据,这些传感器可以通过 配置文件。
- qmaster:控制代理并从代理收集数据的服务/守护进程。它运行在 群集的主节点;它通过配置文件进行控制。
安装
只需从pypi安装qulo包:
$ pip install QULo
用法
开始qmaster
# qmaster start
默认情况下,配置文件是/etc/qulo/qmaster.conf,但可以从 命令行。典型的配置可能是:
[qmaster] host = localhost incoming data port = 7888 [Graphite] host = localhost carbon receiver pickle port = 2004 [logging] filename = /tmp/qmaster.log maxBytes = 1073741824 backupCount = 10 level = DEBUG
没有强制选项。在文件qulo/constants.py中定义了默认值。
开始qagent
# qagent start
默认情况下,配置文件是/etc/qulo/qagent.conf,但可以从 命令行。在此配置文件中,激活sensor的位置。典型的 所有传感器激活时的配置为:
[qmaster] host = localhost incoming data port = 7888 [logging] filename = /tmp/qagent.log maxBytes = 1073741824 backupCount = 10 level = DEBUG [sensor:CPUPercent] time_interval = 10 [sensor:VirtualMemory] time_interval = 30 [sensor:CPUTimes] time_interval = 30 [sensor:CPUTimesPercent] time_interval = 10 [sensor:CPUCount] time_interval = 300 [sensor:CPUStats] time_interval = 30 [sensor:CPUFreq] time_interval = 300 [sensor:SwapMemory] time_interval = 60 [sensor:DiskPartitions] time_interval = 60 [sensor:DiskUsage] time_interval = 30 #path = / [sensor:DiskIOCounters] time_interval = 20 [sensor:NetIOCounters] time_interval = 10 [sensor:NetConnections] time_interval = 20 [sensor:NetIFAddrs] time_interval = 30 [sensor:NetIFStats] time_interval = 30 [sensor:SensorsTemperatures] time_interval = 30 [sensor:SensorsFans] time_interval = 30 [sensor:SensorsBattery] time_interval = 30 [sensor:BootTime] time_interval = 300 [sensor:Users] time_interval = 10
同样,没有任何选项是强制性的。但是如果qagent必须测量任何东西,那么某些传感器必须 明确给出。在文件qulo/constants.py中定义了默认值。 在time_interval选项中给出的time被理解为在seconds中。
启动Graphite并检查仪表板以查看数据。
待办事项
- qagent应该有一个选项来显示可用的传感器和每个传感器的一些帮助。
- 传感器应该接受选项:机械装置就在那里,但需要完成。
- 添加传感器以从GPU读取数据。
- 连接到slurm。