python-gpu模块的进程挖掘
pm4pygpu的Python项目详细描述
#PM4PYGPU源
欢迎使用gpu进行进程挖掘!
使用nvidia rapids框架的pm4py gpu实用程序
DFG微积分性能:
在CSV日志中,有1百万个案例和5百万个事件(驱动器上有328百万个事件)。 pandas需要5,26秒加载日志并计算dfg, 急流需要0,75秒才能完成!
在CSV日志中,包含10M个案例和48M个事件(驱动器上为3.3GB)。 pandas需要53,17秒来加载日志并计算dfg, 急流需要3,46秒才能完成!
限制: -仍然不直接支持字符串。目前,Rapids可以将它们加载为Int64,但限制为两个字符。 -带有非字母数字字符的列名正在与rapids作斗争
要导入CSV并从CSV中获取DFG,请使用以下说明:
从pm4pygpu.objects.log.importer.adapters.rapids import rapids_csv_import 从pm4pygpu.algo.dfg.adapters.rapids导入df_统计信息
df=rapids_csv_import.import_rapids_dataframe(“output.csv”) dfg=df_统计。计算dfg_频率(df) 打印(DFG)
结果:
{('a','c'):14962,('b','d'):7480,('a','b'):15038,('e','f'):11217,('c','d'):7494,('b','e'):7558,('e','g'):3809,('f','g'):22421,('d','g'):3770,('c','e'):7468,('d','f'):11204}