namd/doxygen/ComputeConsForceCUDAKernel_8cu_source.html

#ifdef NAMD_CUDA
#if __CUDACC_VER_MAJOR__ >= 11
#include <cub/cub.cuh>
#else
#include <namd_cub/cub.cuh>
#endif
#else // NAMD_HIP
#include <hip/hip_runtime.h>
#include <hipcub/hipcub.hpp>
#define cub hipcub
#endif // end NAMD_CUDA vs. NAMD_HIP

#include "HipDefines.h"

#include "ComputeConsForceCUDAKernel.h"

#ifdef NODEGROUP_FORCE_REGISTER


template<bool T_DOVIRIAL>
__global__ void computeConsForceKernel(
  const int nConsForceAtoms,
  const int*    __restrict d_consForceSOA,
  const int*    __restrict d_consForceID,
  const double* __restrict d_pos_x,
  const double* __restrict d_pos_y,
  const double* __restrict d_pos_z,
  const double3* __restrict d_consForce,
  const char3* __restrict d_transform,
  double*       __restrict f_normal_x,
  double*       __restrict f_normal_y,
  double*       __restrict f_normal_z,
  double3*      __restrict d_extForce,
  double3*      __restrict h_extForce,
  cudaTensor*   __restrict d_virial,
  cudaTensor*   __restrict h_extVirial,
  const double scaling,
  const Lattice   lat,
  unsigned int* __restrict tbcatomic,
  cudaStream_t stream
)
{
  int tid = threadIdx.x + (blockIdx.x * blockDim.x);

  int totaltb = gridDim.x;
  bool isLastBlockDone;

  if(threadIdx.x == 0){
    isLastBlockDone = 0;
  }

  __syncthreads();
  double3 pos = {0, 0, 0};
  double3 pos_i = {0, 0, 0};
  double3 r_netForce = {0, 0, 0};
  double3 scale;
  cudaTensor r_virial;
  r_virial.xx = 0.0; r_virial.xy = 0.0; r_virial.xz = 0.0;
  r_virial.yx = 0.0; r_virial.yy = 0.0; r_virial.yz = 0.0;
  r_virial.zx = 0.0; r_virial.zy = 0.0; r_virial.zz = 0.0;

  if(tid < nConsForceAtoms){
    int forceID = d_consForceID[tid];
    int soaID = d_consForceSOA[forceID];
    scale.x = scaling * d_consForce[forceID].x;
    scale.y = scaling * d_consForce[forceID].y;
    scale.z = scaling * d_consForce[forceID].z;
    atomicAdd(&(f_normal_x[soaID]), scale.x);
    atomicAdd(&(f_normal_y[soaID]), scale.y);
    atomicAdd(&(f_normal_z[soaID]), scale.z);
    r_netForce.x += scale.x;
    r_netForce.y += scale.y;
    r_netForce.z += scale.z;
    if(T_DOVIRIAL)
      {
   char3 t = d_transform[soaID];
   pos.x = d_pos_x[soaID];
   pos.y = d_pos_y[soaID];
   pos.z = d_pos_z[soaID];
   pos_i = lat.reverse_transform(pos, t);
   r_virial.xx = scale.x * pos_i.x;
   r_virial.xy = scale.x * pos_i.y;
   r_virial.xz = scale.x * pos_i.z;
   r_virial.yx = scale.y * pos_i.x;
   r_virial.yy = scale.y * pos_i.y;
   r_virial.yz = scale.y * pos_i.z;
   r_virial.zx = scale.z * pos_i.x;
   r_virial.zy = scale.z * pos_i.y;
   r_virial.zz = scale.z * pos_i.z;
      }
  }
  __syncthreads();
  if(T_DOVIRIAL){
    typedef cub::BlockReduce<double, 128> BlockReduce;
    __shared__ typename BlockReduce::TempStorage temp_storage;

    r_netForce.x = BlockReduce(temp_storage).Sum(r_netForce.x);
    __syncthreads();
    r_netForce.y = BlockReduce(temp_storage).Sum(r_netForce.y);
    __syncthreads();
    r_netForce.z = BlockReduce(temp_storage).Sum(r_netForce.z);
    __syncthreads();

    r_virial.xx = BlockReduce(temp_storage).Sum(r_virial.xx);
    __syncthreads();
    r_virial.xy = BlockReduce(temp_storage).Sum(r_virial.xy);
    __syncthreads();
    r_virial.xz = BlockReduce(temp_storage).Sum(r_virial.xz);
    __syncthreads();

    r_virial.yx = BlockReduce(temp_storage).Sum(r_virial.yx);
    __syncthreads();
    r_virial.yy = BlockReduce(temp_storage).Sum(r_virial.yy);
    __syncthreads();
    r_virial.yz = BlockReduce(temp_storage).Sum(r_virial.yz);
    __syncthreads();

    r_virial.zx = BlockReduce(temp_storage).Sum(r_virial.zx);
    __syncthreads();
    r_virial.zy = BlockReduce(temp_storage).Sum(r_virial.zy);
    __syncthreads();
    r_virial.zz = BlockReduce(temp_storage).Sum(r_virial.zz);
    __syncthreads();
    if(threadIdx.x == 0){
      atomicAdd(&(d_virial->xx), r_virial.xx);
      atomicAdd(&(d_virial->xy), r_virial.xy);
      atomicAdd(&(d_virial->xz), r_virial.xz);

      atomicAdd(&(d_virial->yx), r_virial.yx);
      atomicAdd(&(d_virial->yy), r_virial.yy);
      atomicAdd(&(d_virial->yz), r_virial.yz);

      atomicAdd(&(d_virial->zx), r_virial.zx);
      atomicAdd(&(d_virial->zy), r_virial.zy);
      atomicAdd(&(d_virial->zz), r_virial.zz);

      atomicAdd(&(d_extForce->x), r_netForce.x);
      atomicAdd(&(d_extForce->y), r_netForce.y);
      atomicAdd(&(d_extForce->z), r_netForce.z);

      __threadfence();
      unsigned int value = atomicInc(&tbcatomic[0], totaltb);
      isLastBlockDone = (value == (totaltb -1));
    }
    __syncthreads();
    // Last block will set the host values

    if(isLastBlockDone){
      if(threadIdx.x == 0){
   h_extVirial->xx = d_virial->xx;
   h_extVirial->xy = d_virial->xy;
   h_extVirial->xz = d_virial->xz;
   h_extVirial->yx = d_virial->yx;
   h_extVirial->yy = d_virial->yy;
   h_extVirial->yz = d_virial->yz;
   h_extVirial->zx = d_virial->zx;
   h_extVirial->zy = d_virial->zy;
   h_extVirial->zz = d_virial->zz;

   //reset the device virial value
   d_virial->xx = 0;
   d_virial->xy = 0;
   d_virial->xz = 0;
   d_virial->yx = 0;
   d_virial->yy = 0;
   d_virial->yz = 0;
   d_virial->zx = 0;
   d_virial->zy = 0;
   d_virial->zz = 0;

   h_extForce->x  = d_extForce->x;
   h_extForce->y  = d_extForce->y;
   h_extForce->z  = d_extForce->z;
   d_extForce->x =0 ;
   d_extForce->y =0 ;
   d_extForce->z =0 ;
   //resets atomic counter
   tbcatomic[0] = 0;
   __threadfence();
      }
    }
  }
}

void computeConsForce(
  const bool doVirial,
  const int nConsForceAtoms,
  const int*    __restrict d_consForceSOA,
  const int*    __restrict d_consForceID,
  const double* __restrict d_pos_x,
  const double* __restrict d_pos_y,
  const double* __restrict d_pos_z,
  const double3* __restrict d_consForce,
  const char3* __restrict d_transform,
  double*       __restrict f_normal_x,
  double*       __restrict f_normal_y,
  double*       __restrict f_normal_z,
  double3*      __restrict d_extForce,
  double3*      __restrict h_extForce,
  cudaTensor*   __restrict d_virial,
  cudaTensor*   __restrict h_virial,
  const double scaling,
  const Lattice  lat,
  unsigned int* __restrict d_tbcatomic,
  cudaStream_t stream
)
{
  const int blocks = 128;
  const int grid = (nConsForceAtoms + blocks - 1) / blocks;

  if(doVirial){
    computeConsForceKernel<true> <<<grid, blocks, 0, stream>>> (
   nConsForceAtoms,
   d_consForceSOA,
   d_consForceID,
   d_pos_x,
   d_pos_y,
   d_pos_z,
   d_consForce,
   d_transform,
   f_normal_x,
   f_normal_y,
   f_normal_z,
   d_extForce,
   h_extForce,
   d_virial,
   h_virial,
   scaling,
   lat,
   d_tbcatomic,
   stream);
  }
  else
    {
    computeConsForceKernel<false> <<<grid, blocks, 0, stream>>> (
        nConsForceAtoms,
   d_consForceSOA,
   d_consForceID,
   d_pos_x,
   d_pos_y,
   d_pos_z,
   d_consForce,
   d_transform,
   f_normal_x,
   f_normal_y,
   f_normal_z,
   d_extForce,
   h_extForce,
   d_virial,
   h_virial,
   scaling,
   lat,
   d_tbcatomic,
   stream);
    }
}

#endif // NODEGROUP_FORCE_REGISTER