如何计算Apache梁的标准差

import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions from apache_beam.io.textio import ReadFromText class Split(beam.DoFn): def process(self, element): A, B = element.split(',') return [('A', A), ('B', B)] with beam.Pipeline(options=PipelineOptions()) as p: # parse the rows rows = (p | ReadFromText('data.csv') | beam.ParDo(Split())) # calculate the mean avgs = (rows | beam.CombinePerKey( beam.combiners.MeanCombineFn())) # calculate the stdv per key # ??? std >> beam.io.WriteToText('std.out')

1条回答

网友

1楼 · 发布于 2024-04-19 18:43:58

写你自己的组合器。这将起作用：

class MeanStddev(beam.CombineFn):
  def create_accumulator(self):
    return (0.0, 0.0, 0) # x, x^2, count

  def add_input(self, sum_count, input):
    (sum, sumsq, count) = sum_count
    return sum + input, sumsq + input*input, count + 1

  def merge_accumulators(self, accumulators):
    sums, sumsqs, counts = zip(*accumulators)
    return sum(sums), sum(sumsqs), sum(counts)

  def extract_output(self, sum_count):
    (sum, sumsq, count) = sum_count
    if count:
      mean = sum / count
      variance = (sumsq / count) - mean*mean
      # -ve value could happen due to rounding
      stddev = np.sqrt(variance) if variance > 0 else 0
      return {
        'mean': mean,
        'variance': variance,
        'stddev': stddev,
        'count': count
      }
    else:
      return {
        'mean': float('NaN'),
        'variance': float('NaN'),
        'stddev': float('NaN'),
        'count': 0
      }

这会将方差计算为E（x^2）-E（x）*E（x），这样您只需传递一次数据。以下是使用上述合并器的方式：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章