namd/doxygen/ComputeGlobalMasterVirialCUDAKernel_8cu_source.html

#ifdef NAMD_CUDA
#if __CUDACC_VER_MAJOR__ >= 11
#include <cub/cub.cuh>
#else
#include <namd_cub/cub.cuh>
#endif
#else // NAMD_HIP
#include <hip/hip_runtime.h>
#include <hipcub/hipcub.hpp>
#define cub hipcub
#endif // end NAMD_CUDA vs. NAMD_HIP

#include "HipDefines.h"

#include "ComputeGlobalMasterVirialCUDAKernel.h"

#ifdef NODEGROUP_FORCE_REGISTER

template <int BLOCK_SIZE>
__global__ void computeGlobalMasterVirialKernel(
  const int                          numAtoms,
  CudaLocalRecord*                   localRecords,
  const double* __restrict d_pos_x,
  const double* __restrict d_pos_y,
  const double* __restrict d_pos_z,
  const char3* __restrict d_transform,
  double*       __restrict f_global_x,
  double*       __restrict f_global_y,
  double*       __restrict f_global_z,
  double3*      __restrict d_extForce,
  double3*      __restrict h_extForce,
  cudaTensor*   __restrict d_virial,
  cudaTensor*   __restrict h_extVirial,
  const Lattice   lat,
  unsigned int* __restrict tbcatomic
)
{
  double3 r_netForce = {0, 0, 0};
  cudaTensor r_virial;
  r_virial.xx = 0.0; r_virial.xy = 0.0; r_virial.xz = 0.0;
  r_virial.yx = 0.0; r_virial.yy = 0.0; r_virial.yz = 0.0;
  r_virial.zx = 0.0; r_virial.zy = 0.0; r_virial.zz = 0.0;
  int totaltb = gridDim.x;
  int i = threadIdx.x + blockIdx.x*blockDim.x;
  __shared__ bool isLastBlockDone;

  if(threadIdx.x == 0){
    isLastBlockDone = 0;
  }

  __syncthreads();

  if (i < numAtoms) {
    double3 pos, pos_i;
    pos.x = d_pos_x[i];
    pos.y = d_pos_y[i];
    pos.z = d_pos_z[i];
    const char3 t = d_transform[i];
    pos_i = lat.reverse_transform(pos, t);
    r_virial.xx = f_global_x[i] * pos_i.x;
    r_virial.xy = f_global_x[i] * pos_i.y;
    r_virial.xz = f_global_x[i] * pos_i.z;
    r_virial.yx = f_global_y[i] * pos_i.x;
    r_virial.yy = f_global_y[i] * pos_i.y;
    r_virial.yz = f_global_y[i] * pos_i.z;
    r_virial.zx = f_global_z[i] * pos_i.x;
    r_virial.zy = f_global_z[i] * pos_i.y;
    r_virial.zz = f_global_z[i] * pos_i.z;
    r_netForce.x = f_global_x[i];
    r_netForce.y = f_global_y[i];
    r_netForce.z = f_global_z[i];
  }
  __syncthreads();

  typedef cub::BlockReduce<double, BLOCK_SIZE> BlockReduce;
  __shared__ typename BlockReduce::TempStorage temp_storage;

  r_netForce.x = BlockReduce(temp_storage).Sum(r_netForce.x);
  __syncthreads();
  r_netForce.y = BlockReduce(temp_storage).Sum(r_netForce.y);
  __syncthreads();
  r_netForce.z = BlockReduce(temp_storage).Sum(r_netForce.z);
  __syncthreads();

  r_virial.xx = BlockReduce(temp_storage).Sum(r_virial.xx);
  __syncthreads();
  r_virial.xy = BlockReduce(temp_storage).Sum(r_virial.xy);
  __syncthreads();
  r_virial.xz = BlockReduce(temp_storage).Sum(r_virial.xz);
  __syncthreads();

  r_virial.yx = BlockReduce(temp_storage).Sum(r_virial.yx);
  __syncthreads();
  r_virial.yy = BlockReduce(temp_storage).Sum(r_virial.yy);
  __syncthreads();
  r_virial.yz = BlockReduce(temp_storage).Sum(r_virial.yz);
  __syncthreads();

  r_virial.zx = BlockReduce(temp_storage).Sum(r_virial.zx);
  __syncthreads();
  r_virial.zy = BlockReduce(temp_storage).Sum(r_virial.zy);
  __syncthreads();
  r_virial.zz = BlockReduce(temp_storage).Sum(r_virial.zz);
  __syncthreads();

  if(threadIdx.x == 0){
    atomicAdd(&(d_virial->xx), r_virial.xx);
    atomicAdd(&(d_virial->xy), r_virial.xy);
    atomicAdd(&(d_virial->xz), r_virial.xz);

    atomicAdd(&(d_virial->yx), r_virial.yx);
    atomicAdd(&(d_virial->yy), r_virial.yy);
    atomicAdd(&(d_virial->yz), r_virial.yz);

    atomicAdd(&(d_virial->zx), r_virial.zx);
    atomicAdd(&(d_virial->zy), r_virial.zy);
    atomicAdd(&(d_virial->zz), r_virial.zz);

    atomicAdd(&(d_extForce->x), r_netForce.x);
    atomicAdd(&(d_extForce->y), r_netForce.y);
    atomicAdd(&(d_extForce->z), r_netForce.z);

    __threadfence();
    unsigned int value = atomicInc(&tbcatomic[0], totaltb);
    isLastBlockDone = (value == (totaltb -1));
  }
  __syncthreads();

  if(isLastBlockDone){
    if(threadIdx.x == 0){
      h_extVirial->xx = d_virial->xx;
      h_extVirial->xy = d_virial->xy;
      h_extVirial->xz = d_virial->xz;
      h_extVirial->yx = d_virial->yx;
      h_extVirial->yy = d_virial->yy;
      h_extVirial->yz = d_virial->yz;
      h_extVirial->zx = d_virial->zx;
      h_extVirial->zy = d_virial->zy;
      h_extVirial->zz = d_virial->zz;

      //reset the device virial value
      d_virial->xx = 0;
      d_virial->xy = 0;
      d_virial->xz = 0;
      d_virial->yx = 0;
      d_virial->yy = 0;
      d_virial->yz = 0;
      d_virial->zx = 0;
      d_virial->zy = 0;
      d_virial->zz = 0;

      h_extForce->x  = d_extForce->x;
      h_extForce->y  = d_extForce->y;
      h_extForce->z  = d_extForce->z;
      d_extForce->x =0 ;
      d_extForce->y =0 ;
      d_extForce->z =0 ;
      //resets atomic counter
      tbcatomic[0] = 0;
      __threadfence();
    }
  }
}

void computeGlobalMasterVirial(
  const int                numPatches,
  const int                numAtoms,
  CudaLocalRecord*         localRecords,
  const double* __restrict d_pos_x,
  const double* __restrict d_pos_y,
  const double* __restrict d_pos_z,
  const char3* __restrict d_transform,
  double*       __restrict f_global_x,
  double*       __restrict f_global_y,
  double*       __restrict f_global_z,
  double3*      __restrict d_extForce,
  double3*      __restrict h_extForce,
  cudaTensor*   __restrict d_virial,
  cudaTensor*   __restrict h_virial,
  const Lattice  lat,
  unsigned int* __restrict d_tbcatomic,
  cudaStream_t stream
)
{

  const int atom_blocks = 128;
  const int grid = (numAtoms + atom_blocks - 1) / atom_blocks;
  computeGlobalMasterVirialKernel<atom_blocks><<<grid, atom_blocks, 0, stream>>>(
    numAtoms,
    localRecords,
    d_pos_x,
    d_pos_y,
    d_pos_z,
    d_transform,
    f_global_x,
    f_global_y,
    f_global_z,
    d_extForce,
    h_extForce,
    d_virial,
    h_virial,
    lat,
    d_tbcatomic
  );
}

#endif // NODEGROUP_FORCE_REGISTER