#include <CudaPmeSolverUtil.h>

Inheritance diagram for CudaPmeTranspose:

Public Member Functions
	CudaPmeTranspose (PmeGrid pmeGrid, const int permutation, const int jblock, const int kblock, int deviceID, cudaStream_t stream)

	~CudaPmeTranspose ()

void	setDataPtrsYZX (std::vector< float2 > &dataPtrsNew, float2 data)

void	setDataPtrsZXY (std::vector< float2 > &dataPtrsNew, float2 data)

void	transposeXYZtoYZX (const float2 *data)

void	transposeXYZtoZXY (const float2 *data)

void	waitStreamSynchronize ()

void	copyDataDeviceToHost (const int iblock, float2 *h_data, const int h_dataSize)

void	copyDataHostToDevice (const int iblock, float2 data_in, float2 data_out)

void	copyDataDeviceToDevice (const int iblock, float2 *data_out)

float2 *	getBuffer (const int iblock)

void	copyDataToPeerDeviceYZX (const int iblock, int deviceID_out, int permutation_out, float2 *data_out)

void	copyDataToPeerDeviceZXY (const int iblock, int deviceID_out, int permutation_out, float2 *data_out)

Public Member Functions inherited from PmeTranspose
	PmeTranspose (PmeGrid pmeGrid, const int permutation, const int jblock, const int kblock)

virtual	~PmeTranspose ()

Additional Inherited Members
Protected Attributes inherited from PmeTranspose
PmeGrid	pmeGrid

const int	permutation

const int	jblock

const int	kblock

int	isize

int	jsize

int	ksize

int	dataSize

int	nblock

std::vector< int >	pos

Detailed Description

Definition at line 158 of file CudaPmeSolverUtil.h.

Constructor & Destructor Documentation

◆ CudaPmeTranspose()

CudaPmeTranspose::CudaPmeTranspose	(	PmeGrid	pmeGrid,
		const int	permutation,
		const int	jblock,
		const int	kblock,
		int	deviceID,
		cudaStream_t	stream
	)

Definition at line 845 of file CudaPmeSolverUtil.C.

References cudaCheck, PmeTranspose::dataSize, and PmeTranspose::nblock.

                                                                            : 
   PmeTranspose(pmeGrid, permutation, jblock, kblock), deviceID(deviceID), stream(stream) {
   cudaCheck(cudaSetDevice(deviceID));
 
   allocate_device<float2>(&d_data, dataSize);
 #ifndef P2P_ENABLE_3D
   allocate_device<float2>(&d_buffer, dataSize);
 #endif
 
   // Setup data pointers to NULL, these can be overridden later on by using setDataPtrs()
   dataPtrsYZX.resize(nblock, NULL);
   dataPtrsZXY.resize(nblock, NULL);
 
   allocate_device< TransposeBatch<float2> >(&batchesYZX, 3*nblock);
   allocate_device< TransposeBatch<float2> >(&batchesZXY, 3*nblock);
 }

◆ ~CudaPmeTranspose()

CudaPmeTranspose::~CudaPmeTranspose ( )

Definition at line 863 of file CudaPmeSolverUtil.C.

References cudaCheck.

                                     {
   cudaCheck(cudaSetDevice(deviceID));
   deallocate_device<float2>(&d_data);
 #ifndef P2P_ENABLE_3D
   deallocate_device<float2>(&d_buffer);
 #endif
   deallocate_device< TransposeBatch<float2> >(&batchesZXY);
   deallocate_device< TransposeBatch<float2> >(&batchesYZX);
 }

Member Function Documentation

◆ copyDataDeviceToDevice()

void CudaPmeTranspose::copyDataDeviceToDevice	(	const int	iblock,
		float2 *	data_out
	)

Definition at line 1207 of file CudaPmeSolverUtil.C.

References cudaCheck, getBlockDim(), PmeTranspose::isize, PmeTranspose::jblock, PmeTranspose::jsize, PmeTranspose::kblock, NAMD_bug(), PmeTranspose::nblock, PmeTranspose::permutation, and PmeTranspose::pmeGrid.

                                                                                 {
   cudaCheck(cudaSetDevice(deviceID));
 
   if (iblock >= nblock)
     NAMD_bug("CudaPmeTranspose::copyDataDeviceToDevice, block index exceeds number of blocks");
 
   // Determine block size = how much we're copying
   int i0, i1, j0, j1, k0, k1;
   getBlockDim(pmeGrid, permutation, iblock, jblock, kblock, i0, i1, j0, j1, k0, k1);
   int ni = i1-i0+1;
   int nj = j1-j0+1;
   int nk = k1-k0+1;
 
   float2* data_in = d_buffer + i0*nj*nk;
 
   copy3D_DtoD<float2>(data_in, data_out,
     0, 0, 0,
     ni, nj,
     i0, 0, 0,
     isize, jsize,
     ni, nj, nk, stream);
 }

◆ copyDataDeviceToHost()

void CudaPmeTranspose::copyDataDeviceToHost	(	const int	iblock,
		float2 *	h_data,
		const int	h_dataSize
	)

Definition at line 1161 of file CudaPmeSolverUtil.C.

References cudaCheck, PmeTranspose::dataSize, PmeTranspose::jsize, PmeTranspose::ksize, NAMD_bug(), PmeTranspose::nblock, and PmeTranspose::pos.

                                                                                                   {
   cudaCheck(cudaSetDevice(deviceID));
 
   if (iblock >= nblock)
     NAMD_bug("CudaPmeTranspose::copyDataDeviceToHost, block index exceeds number of blocks");
 
   int x0 = pos[iblock];
   int nx = pos[iblock+1] - x0;
 
   int copySize  = jsize*ksize*nx;
   int copyStart = jsize*ksize*x0;
 
   if (copyStart + copySize > dataSize)
     NAMD_bug("CudaPmeTranspose::copyDataDeviceToHost, dataSize exceeded");
 
   if (copySize > h_dataSize) 
     NAMD_bug("CudaPmeTranspose::copyDataDeviceToHost, h_dataSize exceeded");
 
   copy_DtoH<float2>(d_data+copyStart, h_data, copySize, stream);
 }

◆ copyDataHostToDevice()

void CudaPmeTranspose::copyDataHostToDevice	(	const int	iblock,
		float2 *	data_in,
		float2 *	data_out
	)

Definition at line 1182 of file CudaPmeSolverUtil.C.

References cudaCheck, getBlockDim(), PmeTranspose::isize, PmeTranspose::jblock, PmeTranspose::jsize, PmeTranspose::kblock, NAMD_bug(), PmeTranspose::nblock, PmeTranspose::permutation, and PmeTranspose::pmeGrid.

                                                                                                {
   cudaCheck(cudaSetDevice(deviceID));
 
   if (iblock >= nblock)
     NAMD_bug("CudaPmeTranspose::copyDataHostToDevice, block index exceeds number of blocks");
 
   // Determine block size = how much we're copying
   int i0, i1, j0, j1, k0, k1;
   getBlockDim(pmeGrid, permutation, iblock, jblock, kblock, i0, i1, j0, j1, k0, k1);
   int ni = i1-i0+1;
   int nj = j1-j0+1;
   int nk = k1-k0+1;
 
   copy3D_HtoD<float2>(data_in, data_out,
     0, 0, 0,
     ni, nj,
     i0, 0, 0,
     isize, jsize,
     ni, nj, nk, stream);
 }

◆ copyDataToPeerDeviceYZX()

void CudaPmeTranspose::copyDataToPeerDeviceYZX	(	const int	iblock,
		int	deviceID_out,
		int	permutation_out,
		float2 *	data_out
	)

Definition at line 1248 of file CudaPmeSolverUtil.C.

References PmeTranspose::jblock, and PmeTranspose::kblock.

                     {
 
   int iblock_out = jblock;
   int jblock_out = kblock;
   int kblock_out = iblock;
 
   copyDataToPeerDevice(iblock, iblock_out, jblock_out, kblock_out, deviceID_out, permutation_out, data_out);
 }

◆ copyDataToPeerDeviceZXY()

void CudaPmeTranspose::copyDataToPeerDeviceZXY	(	const int	iblock,
		int	deviceID_out,
		int	permutation_out,
		float2 *	data_out
	)

Definition at line 1258 of file CudaPmeSolverUtil.C.

References PmeTranspose::jblock, and PmeTranspose::kblock.

                     {
 
   int iblock_out = kblock;
   int jblock_out = iblock;
   int kblock_out = jblock;
 
   copyDataToPeerDevice(iblock, iblock_out, jblock_out, kblock_out, deviceID_out, permutation_out, data_out);
 }

◆ getBuffer()

float2 * CudaPmeTranspose::getBuffer ( const int iblock )

Definition at line 1233 of file CudaPmeSolverUtil.C.

References getBlockDim(), PmeTranspose::jblock, PmeTranspose::kblock, NAMD_bug(), PmeTranspose::nblock, PmeTranspose::permutation, and PmeTranspose::pmeGrid.

                                                     {
   if (iblock >= nblock)
     NAMD_bug("CudaPmeTranspose::getBuffer, block index exceeds number of blocks");
 
   // Determine block size = how much we're copying
   int i0, i1, j0, j1, k0, k1;
   getBlockDim(pmeGrid, permutation, iblock, jblock, kblock, i0, i1, j0, j1, k0, k1);
   int ni = i1-i0+1;
   int nj = j1-j0+1;
   int nk = k1-k0+1;
 
   return d_buffer + i0*nj*nk;
 }

◆ setDataPtrsYZX()

void CudaPmeTranspose::setDataPtrsYZX	(	std::vector< float2 *> &	dataPtrsNew,
		float2 *	data
	)

Definition at line 876 of file CudaPmeSolverUtil.C.

References cudaCheck, TransposeBatch< T >::data_in, TransposeBatch< T >::data_out, PmeTranspose::jsize, PmeGrid::K1, PmeGrid::K2, PmeGrid::K3, PmeTranspose::ksize, NAMD_bug(), PmeTranspose::nblock, TransposeBatch< T >::nx, PmeTranspose::pmeGrid, PmeTranspose::pos, TransposeBatch< T >::ysize_out, and TransposeBatch< T >::zsize_out.

                                                                                    {
   if (dataPtrsYZX.size() != dataPtrsNew.size())
     NAMD_bug("CudaPmeTranspose::setDataPtrsYZX, invalid dataPtrsNew size");
   for (int iblock=0;iblock < nblock;iblock++) {
     dataPtrsYZX[iblock] = dataPtrsNew[iblock];
   }
   // Build batched data structures
   TransposeBatch<float2> *h_batchesYZX = new TransposeBatch<float2>[3*nblock];
 
   for (int iperm=0;iperm < 3;iperm++) {
     int isize_out;
     if (iperm == 0) {
       // Perm_Z_cX_Y:
       // ZXY -> XYZ
       isize_out = pmeGrid.K1/2+1;
     } else if (iperm == 1) {
       // Perm_cX_Y_Z:
       // XYZ -> YZX
       isize_out = pmeGrid.K2;
     } else {
       // Perm_Y_Z_cX:
       // YZX -> ZXY
       isize_out = pmeGrid.K3;
     }
 
     int max_nx = 0;
     for (int iblock=0;iblock < nblock;iblock++) {
 
       int x0 = pos[iblock];
       int nx = pos[iblock+1] - x0;
       max_nx = std::max(max_nx, nx);
 
       int width_out;
       float2* data_out;
       if (dataPtrsYZX[iblock] == NULL) {
         // Local transpose, use internal buffer
         data_out = d_data + jsize*ksize*x0;
         width_out = jsize;
       } else {
         // Non-local tranpose, use buffer in dataPtr[] and the size of that buffer
         data_out = dataPtrsYZX[iblock];
         width_out = isize_out;
       }
 
       TransposeBatch<float2> batch;
       batch.nx        = nx;
       batch.ysize_out = width_out;
       batch.zsize_out = ksize;
       batch.data_in   = data+x0;
       batch.data_out  = data_out;
 
       h_batchesYZX[iperm*nblock + iblock] = batch;
 
     // transpose_xyz_yzx(
     //   nx, jsize, ksize,
     //   isize, jsize,
     //   width_out, ksize,
     //   data+x0, data_out, stream);
     }
 
     max_nx_YZX[iperm] = max_nx;
   }
 
   copy_HtoD< TransposeBatch<float2> >(h_batchesYZX, batchesYZX, 3*nblock, stream);
   cudaCheck(cudaStreamSynchronize(stream));
   delete [] h_batchesYZX;
 }

◆ setDataPtrsZXY()

void CudaPmeTranspose::setDataPtrsZXY	(	std::vector< float2 *> &	dataPtrsNew,
		float2 *	data
	)

Definition at line 947 of file CudaPmeSolverUtil.C.

References cudaCheck, TransposeBatch< T >::data_in, TransposeBatch< T >::data_out, PmeTranspose::jsize, PmeGrid::K1, PmeGrid::K2, PmeGrid::K3, PmeTranspose::ksize, NAMD_bug(), PmeTranspose::nblock, TransposeBatch< T >::nx, PmeTranspose::pmeGrid, PmeTranspose::pos, TransposeBatch< T >::xsize_out, and TransposeBatch< T >::zsize_out.

                                                                                    {
   if (dataPtrsZXY.size() != dataPtrsNew.size())
     NAMD_bug("CudaPmeTranspose::setDataPtrsZXY, invalid dataPtrsNew size");
   for (int iblock=0;iblock < nblock;iblock++) {
     dataPtrsZXY[iblock] = dataPtrsNew[iblock];
   }
 
   // Build batched data structures
   TransposeBatch<float2> *h_batchesZXY = new TransposeBatch<float2>[3*nblock];
 
   for (int iperm=0;iperm < 3;iperm++) {
     int isize_out;
     if (iperm == 0) {
       // Perm_cX_Y_Z:
       // XYZ -> ZXY
       isize_out = pmeGrid.K3;
     } else if (iperm == 1) {
       // Perm_Z_cX_Y:
       // ZXY -> YZX
       isize_out = pmeGrid.K2;
     } else {
       // Perm_Y_Z_cX:
       // YZX -> XYZ
       isize_out = pmeGrid.K1/2+1;
     }
 
     int max_nx = 0;
     for (int iblock=0;iblock < nblock;iblock++) {
 
       int x0 = pos[iblock];
       int nx = pos[iblock+1] - x0;
       max_nx = std::max(max_nx, nx);
 
       int width_out;
       float2* data_out;
       if (dataPtrsZXY[iblock] == NULL) {
         // Local transpose, use internal buffer
         data_out = d_data + jsize*ksize*x0;
         width_out = ksize;
       } else {
         // Non-local tranpose, use buffer in dataPtr[] and the size of that buffer
         data_out = dataPtrsZXY[iblock];
         width_out = isize_out;
       }
 
       TransposeBatch<float2> batch;
       batch.nx        = nx;
       batch.zsize_out = width_out;
       batch.xsize_out = nx;
       batch.data_in   = data+x0;
       batch.data_out  = data_out;
       h_batchesZXY[iperm*nblock + iblock] = batch;
     }
 
     max_nx_ZXY[iperm] = max_nx;
   }
 
   copy_HtoD< TransposeBatch<float2> >(h_batchesZXY, batchesZXY, 3*nblock, stream);
   cudaCheck(cudaStreamSynchronize(stream));
   delete [] h_batchesZXY;
 }

◆ transposeXYZtoYZX()

void CudaPmeTranspose::transposeXYZtoYZX ( const float2 * data )

virtual

Implements PmeTranspose.

Definition at line 1009 of file CudaPmeSolverUtil.C.

References batchTranspose_xyz_yzx(), cudaCheck, PmeTranspose::isize, PmeTranspose::jsize, PmeTranspose::ksize, NAMD_bug(), PmeTranspose::nblock, Perm_cX_Y_Z, Perm_Y_Z_cX, Perm_Z_cX_Y, and PmeTranspose::permutation.

                                                            {
   cudaCheck(cudaSetDevice(deviceID));
 
   int iperm;
   switch(permutation) {
     case Perm_Z_cX_Y:
     // ZXY -> XYZ
     iperm = 0;
     break;
     case Perm_cX_Y_Z:
     // XYZ -> YZX
     iperm = 1;
     break;
     case Perm_Y_Z_cX:
     // YZX -> ZXY
     iperm = 2;
     break;
     default:
     NAMD_bug("PmeTranspose::transposeXYZtoYZX, invalid permutation");
     break;
   }
 
   batchTranspose_xyz_yzx(
     nblock, batchesYZX + iperm*nblock,
     max_nx_YZX[iperm], jsize, ksize,
     isize, jsize, stream);
 
 
 /*
   int isize_out;
   switch(permutation) {
     case Perm_Z_cX_Y:
     // ZXY -> XYZ
     isize_out = pmeGrid.K1/2+1;
     break;
     case Perm_cX_Y_Z:
     // XYZ -> YZX
     isize_out = pmeGrid.K2;
     break;
     case Perm_Y_Z_cX:
     // YZX -> ZXY
     isize_out = pmeGrid.K3;
     break;
     default:
     NAMD_bug("PmeTranspose::transposeXYZtoYZX, invalid permutation");
     break;
   }
 
   for (int iblock=0;iblock < nblock;iblock++) {
 
     int x0 = pos[iblock];
     int nx = pos[iblock+1] - x0;
 
     int width_out;
     float2* data_out;
     if (dataPtrsYZX[iblock] == NULL) {
       // Local transpose, use internal buffer
       data_out = d_data + jsize*ksize*x0;
       width_out = jsize;
     } else {
       // Non-local tranpose, use buffer in dataPtr[] and the size of that buffer
       data_out = dataPtrsYZX[iblock];
       width_out = isize_out;
     }
 
     transpose_xyz_yzx(
       nx, jsize, ksize,
       isize, jsize,
       width_out, ksize,
       data+x0, data_out, stream);
   }
 */
 }

◆ transposeXYZtoZXY()

void CudaPmeTranspose::transposeXYZtoZXY ( const float2 * data )