CUDA
《Cooperative Groups Flexible CUDA Thread Programming》笔记
更方便、细粒度的线程协作
计算机体系结构
《Beyond Floating Point Next-Generation Computer Arithmetic》笔记
替换 IEEE 754 浮点数的下一代标准?
CUDA
《Better Performance at Lower Occupancy》笔记
为什么 occupancy 不能决定性能?
CUDA
CUDA GEMM 优化
CUDA 矩阵乘法的一步步优化指南
1
2