Cuda

Cuda

Nvidia Tools Summary

Nvidia Tools Summary

Global Memory

Efficient Global Memory Access

L1/Tex Cache + Shared Memory

Using Shared Memory in Cuda

64 KB/SM in most architectures

192 KB/SM in A100 versus 128 KB/SM in V100

Nvidia Ampere Architecture

Vectors

Vector Memory Access

Coorperative groups

Coorperative Groups

Reductions

Faster parallel reductions in kepler

Warp Instrinsics

Warp Shuffle and Warp Vote Instrinsics

CUB

Reusable primitives

Cuda Streams

By default all cuda kernels use stream 0.

In an MPI like setup something like Nvidia MPS would be needed to balance load

Nvidia MPS Cuda streams pitfalls

Cuda Floating Point

https://docs.nvidia.com/cuda/floating-point/index.html

Stride Loops

Cuda Stride loop