PyOpenCL中的结构对齐

0 投票
2 回答
869 浏览
提问于 2025-04-17 03:29

更新:我在内核中的 int4 是错误的。

我在使用 pyopencl,但无法正确处理结构体的对齐。在下面的代码中,我调用内核两次,b 的值返回正确(是 1),但 c 的值却是一些“随机”的值。

换句话说:我想读取一个结构体的两个成员。我能读取第一个,但无法读取第二个。为什么呢?

无论我使用 numpy 结构化数组还是用 struct 打包,都会出现同样的问题。而且评论中的 _-attribute__ 设置也没有帮助。

我怀疑我在代码的其他地方做错了什么,但就是看不出来。任何帮助都非常感谢。

import struct as s
import pyopencl as cl
import numpy as n

ctx = cl.create_some_context()
queue = cl.CommandQueue(ctx)

for use_struct in (True, False):

    if use_struct:
        a = s.pack('=ii',1,2)
        print(a, len(a))
        a_dev = cl.Buffer(ctx, cl.mem_flags.WRITE_ONLY, len(a))
    else:
#       a = n.array([(1,2)], dtype=n.dtype('2i4', align=True))
        a = n.array([(1,2)], dtype=n.dtype('2i4'))
        print(a, a.itemsize, a.nbytes)
        a_dev = cl.Buffer(ctx, cl.mem_flags.WRITE_ONLY, a.nbytes)

    b = n.array([0], dtype='i4')
    print(b, b.itemsize, b.nbytes)
    b_dev = cl.Buffer(ctx, cl.mem_flags.READ_ONLY, b.nbytes)

    c = n.array([0], dtype='i4')
    print(c, c.itemsize, c.nbytes)
    c_dev = cl.Buffer(ctx, cl.mem_flags.READ_ONLY, c.nbytes)

    prg = cl.Program(ctx, """
        typedef struct s {
            int4 f0;
            int4 f1 __attribute__ ((packed));
//            int4 f1 __attribute__ ((aligned (4)));
//            int4 f1;
        } s;
        __kernel void test(__global const s *a, __global int4 *b, __global int4 *c) {
            *b = a->f0;
            *c = a->f1;
        }
        """).build()

    cl.enqueue_copy(queue, a_dev, a)
    event = prg.test(queue, (1,), None, a_dev, b_dev, c_dev)
    event.wait()
    cl.enqueue_copy(queue, b, b_dev)
    print(b)
    cl.enqueue_copy(queue, c, c_dev)
    print(c)

输出(我在剪切和粘贴时不得不重新格式化,所以可能稍微弄乱了换行;我还添加了注释,说明各种打印值是什么):

# first using struct
/home/andrew/projects/personal/kultrung/env/bin/python3.2 /home/andrew/projects/personal/kultrung/src/kultrung/test6.py
b'\x01\x00\x00\x00\x02\x00\x00\x00' 8 # the struct packed values
[0] 4 4                               # output buffer 1
[0] 4 4                               # output buffer 2
/home/andrew/projects/personal/kultrung/env/lib/python3.2/site-packages/pyopencl/cache.py:343: UserWarning: Build succeeded, but resulted in non-empty logs: Build on <pyopencl.Device 'Intel(R) Core(TM)2 CPU         T5600  @ 1.83GHz' at 0x1385a20> succeeded, but said:

Build started Kernel <test> was successfully vectorized Done.   warn("Build succeeded, but resulted in non-empty logs:\n"+message)
[1]         # the first value (correct)
[240]       # the second value (wrong)

# next using numpy
[[1 2]] 4 8 # the numpy struct
[0] 4 4     # output buffer
[0] 4 4     # output buffer
/home/andrew/projects/personal/kultrung/env/lib/python3.2/site-packages/pyopencl/__init__.py:174: UserWarning: Build succeeded, but resulted in non-empty logs: Build on <pyopencl.Device 'Intel(R) Core(TM)2 CPU         T5600  @ 1.83GHz' at 0x1385a20> succeeded, but said:

Build started Kernel <test> was successfully vectorized Done.   warn("Build succeeded, but resulted in non-empty logs:\n"+message)
[1]        # first value (ok)
[67447488] # second value (wrong)

Process finished with exit code 0

2 个回答

0

在OpenCL程序中,试着把packed属性放在整个结构体上,而不是放在某个成员上:

typedef struct s {
        int4 f0;
        int4 f1;
} __attribute__((packed)) s;

可能是因为你只在结构体的一个成员上加了packed属性,所以整个结构体没有被打包。

-1

好的,我不知道我从哪里看到的 int4 - 我觉得这可能是英特尔的一个扩展。换成AMD的 int 作为内核类型后,一切都按预期工作了。一旦我整理好这些内容,我会在 http://acooke.org/cute/Somesimple0.html 上发布更多信息。

撰写回答