Monasca的数据聚合和转换组件
monasca-transform的Python项目详细描述
Monasca变换
Monasca Transform是一个数据驱动的聚合引擎,它收集, 根据现有的单个MasasCA度量分组和聚合 业务需求并将新的转换(派生)度量发布到 莫纳斯卡卡夫卡队列。
- 因为新的转换度量作为任何其他度量发布 在Monasca中,可以在转换后的 公制。
- monasca转换使用Apache Spark来聚合数据。Apache Spark是一个高度可扩展的、快速的、内存中的、容错的 并行数据处理框架。所有Monasca转换组件 在python中实现,并使用spark的PySpark Python API来 与Spark互动。
- monasca转换对传入的
分两个阶段进行测量。
- 在第一阶段,Spark流应用程序设置为检索 在可配置的stream interval的kafka数据中(默认值 stream_interval为10分钟)并写入 stream interval到pre_hourly\u metrics主题。
- 在第二阶段,每小时开始,所有指标 在metrics_pre_hourly中,kafka中的主题再次聚合,这个 一小时的时间间隔。这些小时加起来 在kafka中发布到metrics主题的度量。
Monasca Transform处理的用例
请参阅问题描述部分 Monasca/Transform wiki
操作
请参阅Monasca转换如何操作 Monasca/Transform wiki
架构
请参阅architecture和logical processing data flow 关于Monasca/Transform wiki
创建新的聚合管道示例
通用聚合组件使构建新聚合变得容易 用于不同Monasca度量的管道。
这个创建new aggregation pipeline示例演示如何创建 pre_transform_specs和transform_specs创建聚合 一个新的MaasCA度量集的流水线,同时利用现有集合 通用聚合组件的。