namd/doxygen/CudaGlobalMasterClientKernel_8cu_source.html

#include "CudaGlobalMasterClientKernel.h"
#ifdef NAMD_HIP
#include <hipcub/hipcub.hpp>
#define cub hipcub
#endif //  NAMD_HIP

#ifdef NAMD_CUDA
#include <cuda.h>
#if __CUDACC_VER_MAJOR__ >= 11
#include <cub/cub.cuh>
#else
#include <namd_cub/cub.cuh>
#endif
#endif  // NAMD_CUDA

#if defined(NAMD_CUDA) && defined(NODEGROUP_FORCE_REGISTER)

#define ATOM_BLOCKS 128

__global__ void clientVirialAndExtForceKernel(double *d_pos,
                                              double *d_applied_force,
                                              size_t numAtoms, size_t stride,
                                              cudaTensor *d_virial,
                                              Vector *d_extForce) {
  const int i = threadIdx.x + blockIdx.x * blockDim.x;
  cudaTensor virial = {0};
  double3 f = {0, 0, 0};
  double3 pos = {0, 0, 0};
  if (i < numAtoms) {
    f.x = d_applied_force[i];
    f.y = d_applied_force[i + stride];
    f.z = d_applied_force[i + 2 * stride];
    pos.x = d_pos[i];
    pos.y = d_pos[i + stride];
    pos.z = d_pos[i + 2 * stride];
    virial.xx = f.x * pos.x;
    virial.xy = f.x * pos.y;
    virial.xz = f.x * pos.z;
    virial.yx = f.y * pos.x;
    virial.yy = f.y * pos.y;
    virial.yz = f.y * pos.z;
    virial.zx = f.z * pos.x;
    virial.zy = f.z * pos.y;
    virial.zz = f.z * pos.z;
  }
  __syncthreads();
  typedef cub::BlockReduce<BigReal, ATOM_BLOCKS> BlockReduce;
  __shared__ typename BlockReduce::TempStorage temp_storage;
  virial.xx = BlockReduce(temp_storage).Sum(virial.xx);
  __syncthreads();
  virial.xy = BlockReduce(temp_storage).Sum(virial.xy);
  __syncthreads();
  virial.xz = BlockReduce(temp_storage).Sum(virial.xz);
  __syncthreads();
  virial.yx = BlockReduce(temp_storage).Sum(virial.yx);
  __syncthreads();
  virial.yy = BlockReduce(temp_storage).Sum(virial.yy);
  __syncthreads();
  virial.yz = BlockReduce(temp_storage).Sum(virial.yz);
  __syncthreads();
  virial.zx = BlockReduce(temp_storage).Sum(virial.zx);
  __syncthreads();
  virial.zy = BlockReduce(temp_storage).Sum(virial.zy);
  __syncthreads();
  virial.zz = BlockReduce(temp_storage).Sum(virial.zz);
  __syncthreads();
  f.x = BlockReduce(temp_storage).Sum(f.x);
  __syncthreads();
  f.y = BlockReduce(temp_storage).Sum(f.y);
  __syncthreads();
  f.z = BlockReduce(temp_storage).Sum(f.z);
  __syncthreads();
  if (threadIdx.x == 0) {
    atomicAdd(&(d_virial->xx), virial.xx);
    atomicAdd(&(d_virial->xy), virial.xy);
    atomicAdd(&(d_virial->xz), virial.xz);
    atomicAdd(&(d_virial->yx), virial.yx);
    atomicAdd(&(d_virial->yy), virial.yy);
    atomicAdd(&(d_virial->yz), virial.yz);
    atomicAdd(&(d_virial->zx), virial.zx);
    atomicAdd(&(d_virial->zy), virial.zy);
    atomicAdd(&(d_virial->zz), virial.zz);
    atomicAdd(&(d_extForce->x), f.x);
    atomicAdd(&(d_extForce->y), f.y);
    atomicAdd(&(d_extForce->z), f.z);
  }
}

void clientVirialAndExtForce(double *d_pos, double *d_applied_force,
                             size_t numAtoms, cudaTensor *d_virial,
                             Vector *d_extForce, cudaStream_t stream) {
  const int grid = (numAtoms + ATOM_BLOCKS - 1) / ATOM_BLOCKS;
  clientVirialAndExtForceKernel<<<grid, ATOM_BLOCKS, 0, stream>>>(
      d_pos, d_applied_force, numAtoms, numAtoms, d_virial, d_extForce);
}

#endif // defined(NAMD_CUDA) && defined(NODEGROUP_FORCE_REGISTER)