如何构建这个OpenCL暴力破解代码

Question

我刚开始接触OpenCL，遇到了一些问题，不知道怎么把程序结构设计得更高效一些（主要是想避免频繁地把数据传输到GPU或者其他处理地方）。

我想做的是，给定：

v = r*i + b*j + g*k

..我知道不同的r、g和b值对应的v，但是i、j和k的值我还不知道。我想通过穷举法来计算出合理的i/j/k值。

换句话说，我有一堆“原始”的RGB像素值，还有这些颜色的去饱和版本。我不知道用来计算去饱和值的权重（i/j/k）。

我最初的计划是：

把数据加载到CL缓冲区中（也就是输入的r/g/b值和输出值）。
有一个内核函数，它接收三个可能的矩阵值和各种像素数据缓冲区。

然后它执行v = r*i + b*j + g*k，并把计算出的v值与已知值相减，结果存储在一个“分数”缓冲区中。
另一个内核计算这个值的均方根误差（如果所有输入值的差异为零，那么i/j/k的值就是“正确”的）。

我已经实现了这个功能（使用Python和PyCL编写，代码在这里），但我在想怎么能让这部分工作并行化更多一些（一次尝试多个i/j/k值）。

一个问题是，我有4个只读缓冲区（3个用于输入值，1个用于期望值），但我需要为每种i/j/k组合准备一个单独的“分数”缓冲区。

另一个问题是均方根计算是最慢的部分，因为它实际上是单线程的（要把“分数”中的所有值加起来，然后开平方）。

基本上，我在想有没有合理的方法来构建这样的程序。

这似乎是一个非常适合OpenCL的任务——希望我描述的目标没有太复杂！如前所述，我当前的代码在这里，为了更清楚，这就是我想做的Python版本：

import sys
import math
import random


def make_test_data(w = 128, h = 128):
    in_r, in_g, in_b = [], [], []

    print "Make raw data"
    for x in range(w):
        for y in range(h):
            in_r.append(random.random())
            in_g.append(random.random())
            in_b.append(random.random())

    # the unknown values
    mtx = [random.random(), random.random(), random.random()]

    print "Secret numbers were: %s" % mtx

    out_r = [(r*mtx[0] + g*mtx[1] + b*mtx[2]) for (r, g, b) in zip(in_r, in_g, in_b)]

    return {'in_r': in_r, 'in_g': in_g, 'in_b': in_b,
            'expected_r': out_r}


def score_matrix(ir, ig, ib, expected_r, mtx):
    ms = 0
    for i in range(len(ir)):
        val = ir[i] * mtx[0] + ig[i] * mtx[1] + ib[i] * mtx[2]
        ms += abs(val - expected_r[i]) ** 2
    rms = math.sqrt(ms / float(len(ir)))
    return rms


# Make random test data
test_data = make_test_data(16, 16)


lowest_rms = sys.maxint
closest = []

divisions = 10
for possible_r in range(divisions):
    for possible_g in range(divisions):
        for possible_b in range(divisions):

            pr, pg, pb = [x / float(divisions-1) for x in (possible_r, possible_g, possible_b)]

            rms = score_matrix(
                test_data['in_r'], test_data['in_g'], test_data['in_b'], 
                test_data['expected_r'],
                mtx = [pr, pg, pb])

            if rms < lowest_rms:
                closest = [pr, pg, pb]
                lowest_rms = rms

print closest

数据传输并行计算均方根误差 gpu计算穷举法缓冲区管理 opencl 内核函数

如何构建这个OpenCL暴力破解代码

2 个回答

撰写回答