xtensor的“操作员/比numpy的/慢”

std::vector<std::vector<double>> kloops(std::vector<std::vector<double>> d, double alpha, int d_size){ for (int i = 0; i<d_size; i++){ for (int j = 0; j<d_size; j++){ d[i][j] = alpha/(alpha + d[i][j]); } } return d; }

//d is saved as a 1D npy file, an artefact from old code auto sd2 = xt::load_npy<double>("/path/to/d.npy"); shape = {7084, 7084}; xt::xtensor<double, 2> xd2(shape); for (int i = 0; i<7084;i++){ for (int j=0; j<7084;j++){ xd2(i,j) = (sd2(i*7084+j)); } } auto start = std::chrono::steady_clock::now(); for (int i = 0;i<10;i++){ matrix<double> kk = kfun(xd2,4000*4000,7084); } auto end = std::chrono::steady_clock::now(); std::chrono::duration<double> elapsed_seconds = end-start; std::cout << "k takes: " << elapsed_seconds.count() << "\n";

1条回答

网友

1楼 · 发布于 2024-06-12 16:07:08

一个C++实现的问题可能是它创建了一个或者可能是两个临时副本，这些副本是可以避免的。第一个副本来自未通过引用传递参数（或完全转发）。如果不看代码的其余部分，就很难判断这是否对性能有影响。如果保证在方法xk()之后不使用d，编译器可能会将d移动到方法中，但更可能将数据复制到d

要通过引用传递，可以将方法更改为

xt::xtensor<double,2> xk(const xt::xtensor<double,2>& d, double alpha){
    return alpha/(alpha+d);
}

要使用完美转发（并启用其他xtensor容器，如xt::xarray或xt::xtensor_fixed），可以将该方法更改为

template<typename T>
xt::xtensor<double,2> xk(T&& d, double alpha){
    return alpha/(alpha+d);
}

此外，您可以避免为返回值保留内存。同样，如果没有看到代码的其余部分，就很难做出判断。但是，如果在循环内部使用该方法，并且返回值始终具有相同的形状，那么在循环外部创建返回值并通过引用返回是有益的。为此，可将方法更改为：

template<typename T, typename U>
void xk(T& r, U&& d, double alpha){
    r = alpha/(alpha+d);
}

如果保证d和r不指向同一内存，则可以在xt::noalias()中进一步包装r，以避免在分配结果之前出现临时副本。如果不通过引用返回，函数的返回值也是如此

祝你好运和快乐

相关问题更多 >

编程相关推荐

热门问题

热门文章