cuda - 101 basics. overview what is cuda? data parallelism host-device model thread execution...

CUDA - 101 Basics

Upload: margery-chambers

Post on 18-Jan-2016

235 views

Category:

Documents

0 download

Report

Download

Tags:

Embed Size (px):

TRANSCRIPT

CUDA - 101

Basics

Overview

• What is CUDA?• Data Parallelism• Host-Device model• Thread execution• Matrix-multiplication

GPU revised!

What is CUDA?

• Compute Device Unified Architecture• Programming interface to GPU• Supports C/C++ and Fortran natively– Third party wrappers for Python, Java, MATLAB etc

• Various libraries available– cuBLAS, cuFFT and many more…– https://developer.nvidia.com/gpu-accelerated-libr

aries

https://developer.nvidia.com/gpu-accelerated-libraries

Page 5: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

CUDA computing stack

Page 6: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

CUDA computing stack

Page 7: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

CUDA computing stack

Page 8: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

CUDA computing stack

Page 9: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Data Parallel programming

Kernel

i2 i3 … iN

o1 o2 o3 … oN

Page 10: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Data parallel algorithm

• Dot product : C = A . BA1 B1 …

C1 C2 C3 … CN

A2 B2 A3 B3 AN BN

+ + + + +Kernel

Host-Device model

CPU (Host) GPU (Device)

Threads

• A thread is an instance of the kernel program– Independent in a data

parallel model– Can be executed on a

different core• Host tells the device to

run a kernel program– And how many threads

to launch

Matrix-Multiplication

CPU-only MatrixMultiplication

Execute this code

For all elements of P

Page 15: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Memory Indexing in C (and CUDA)

M(i, j) = M[i + j * width]

Page 16: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

CUDA version - I

Page 17: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

CUDA program flow

• Allocate input and output memory on host– Do the same for device

• Transfer input data from host -> device• Launch kernel on device• Transfer output data from device -> host

Page 18: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Allocating Device memory

• Host tells the device when to allocate and free memory in device

• Functions for host-program– cudaMalloc(memory reference, size)– cudaFree(memory reference)

Page 19: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Transfer Data to/from device

• Again, host tells device when to transfer data• cudaMemcpy(target, source, size, flag)

Page 20: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

CUDA version - 2Host Memory

Device Memory

Allocate matrix M on deviceTransfer M from host -> Device

Allocate matrix N on deviceTransfer N from host -> Device

Allocate matrix P on device

Execute Kernel on Device

Transfer P from Device-> Host

Free Device memories for M, N and P

Page 21: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Matrix Multiplication Kernel

• Kernel specifies the function to be executed on Device

Parameters = Device memories, width

Thread = Each element of output matrix P

Dot product of M’s row and N’s column

Write dot product at current location

Page 22: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Extensions : Function qualifiers

Page 23: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Extensions : Thread indexing

• All threads execute the same code– But they need work on separate memory data

• threadId.x & threadId.y– These variables automatically receive

corresponding values for their threads

Page 24: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Thread Grid

• Represents group of all threads to be executed for a particular kernel

• Two level hierarchy– Grid is composed of Blocks– Each Block is composed of threads

Page 25: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Thread Grid

0, 0 1, 0 2, 0 width-1, 0

0, 1 width–1, 1

0, 2

0, width-1 width – 1, width - 1

Page 26: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

Conclusion

• Sample code and tutorials• CUDA nodes?• Programming guide – http://docs.nvidia.com/cuda/cuda-c-programming

-guide/

• SDK– https://developer.nvidia.com/cuda-downloads– Available for windows, Mac and Linux– Lot of sample programs

http://docs.nvidia.com/cuda/cuda-c-programming-guide/

Page 27: CUDA - 101 Basics. Overview What is CUDA? Data Parallelism Host-Device model Thread execution Matrix-multiplication

QUESTIONS?

CUDA Without Cuda (CUDA Libraries) - Nvidiadeveloper.download.nvidia.com/CUDA/training/ntrotoCUDALibraries.pdf · CUDA Without Cuda (CUDA Libraries) GPU Computing Webinar 7/16/2011

Lecture 2: Data Parallelism and CUDA Cmqhuang/courses/4013/f2013/lecture/GPU_Lectur… · I “NVIDIA CUDA C Programming Guide ... (3,1,0) Thread (0,0,0) Thread ... Lecture 2: Data

1 Friedrich-Alexander-Universität Erlangen-Nürnberg Frank Hannig Matrix Multiplication on CUDA Leander Sturm Daniel Gran Hardware-Software-Co-Design Universität

Exploiting CUDA Dynamic Parallelism for low power ARM based … · 2015-03-19 · Vishal Mehta Engineer, Barcelona Supercomputing Center [email protected]. BSC/UPC CUDA Centre of

CUDA DYNAMIC PARALLELISM PROGRAMMING GUIDEdirac.ruc.dk/manuals/cuda-5.0/CUDA_Dynamic... · CUDA Dynamic Parallelism Programming Guide 1 INTRODUCTION This document provides guidance

Parallelism: Avoiding Faulty Parallelism

Opportunities for Parallelism in Matrix Multiplication · 2014. 1. 11. · Opportunities for Parallelism in Matrix Multiplication FLAME Working Note #71 Tyler M. Smith Robert A. van

Introduction to programming in CUDA C - GitHub …...Introduction to programming in CUDA C Will Landau A review: GPU parallelism and CUDA architecture Beginning CUDA C Hello world

CUDA Parallelism Model - danielwong.org

1. Parallel Databases Introduction I/O Parallelism Interquery Parallelism Intraquery Parallelism Intraoperation Parallelism Interoperation Parallelism

PARALLELISM PARALLELISM PARALLELISM

Exploiting CUDA Dynamic Parallelism for low power ARM

Welcome! [] · Tutorial topics CUDA programming model Tools, languages, and libraries for GPU computing Advanced CUDA: optimization, irregular parallelism Case studies: CFD Seismic

Monte Carlo Automatic Integration with Dynamic Parallelism ...elise/courses/cs626/chapter.pdf · Monte Carlo Automatic Integration with Dynamic Parallelism in CUDA Elise de Doncker,

Windowsで始めるCUDA入門 - NVIDIA · 3.0 192 cores/SMX GTX680, Tesla K10 2012/3 3.5 Dynamic Parallelism, 64 DP/SMX Tesla K20(X) 2012/11 . ... NVIDIA Japan CUDA Monthly Seminar

CUDA C/C++ BASICS - oxent2.ic.unicamp.br · What is CUDA? • CUDA Architecture – Expose GPU parallelism for general-purpose compu1ng – Retain performance • CUDA C/C++ – Based

NVIDIA CUDA Programming Guide - techmela.ucoz.com · Figure 3-1. Matrix Multiplication without Shared Memory..... 24 Figure 3-2. Matrix Multiplication with Shared Memory ..... 28

GPUs and CUDA programming - Rutgers University · ®Expose GPU parallelism for general-purpose computing ®Retain performance • CUDA C/C++ ®Based on industry-standard C/C++ ®Small

CUDA by Examplemartinsa.at.ifi.uio.no/files/cuda_by_example.pdf · Three problems for serial computing: The power wall The von Neumann bottleneck The Instruction Level Parallelism

Enabling Task Parallelism in the CUDA Schedulerecosimulation.com/chrisgregg/Publications/TaskParallelismCuda.pdfEnabling Task Parallelism in the CUDA Scheduler ... since OpenGL and

Matrix Multiplication in CUDA

CUDA Fortran 2013 | GTC 2013...PGI CUDA Fortran 2013 New Features Texture memory support CUDA 5.0 Dynamic Parallelism Chevron launches within global subroutines Support for allocate,

CSE 599 I Accelerated Computing - Programming GPUS 599 I... · - Course Introduction - Intro to CUDA C - CUDA parallelism model ... Lecture 1.2 – Course Introduction Accelerated

Matrix Multiplication in CUDA A case study 1. Matrix Multiplication: A Case Study 2 Matrix multiplication illustrates many of the basic features of

Data Parallelism & Matrix Multiplicationhomepages.math.uic.edu/~jan/mcs572/datparmatmul.pdfData Parallelism and Matrix Multiplication 1 Data Parallelism matrix-matrix multiplication

Master Informatics Eng.gec.di.uminho.pt/Discip/MIEI/cpd1617/AA/DataParallelism3.pdf · Data Parallelism 3 (GPU & CUDA) (most slides are borrowed) AJProença, Advanced Architectures,

CUDA-NP: Realizing Nested Thread-Level Parallelism in GPGPU Applications

Programming with CUDA · Programming with CUDA ... CUDA C programming guide – CUDA Programming 4 …

E cient Sparse Matrix-Vector Multiplication on CUDAsbel.wisc.edu/Courses/ME964/Literature/techReportGarlandBell.pdf · E cient Sparse Matrix-Vector Multiplication on CUDA ... warp

GPU Performance vs. Thread-Level Parallelism: Scalability ...GPUs exploit high degrees of thread-level parallelism (TLP). Programmers use the CUDA [2] or OpenCL [1] programming models

ACCELERATED BY CUDA TECHNOLOGYmaxest.gct-game.net/content/vainmoinen/bachelor_thesis.pdfOne of the most common applications of parallelism is graphics processing. Although there are

Standard Introduction to CUDA C Programming · Expose GPU parallelism for general-purpose computing Retain performance CUDA C/C++ Based on industry-standard C/C++ Small set of extensions

Attract-Repulse Fireworks Algorithm and its CUDA ...6-2-1)Paper1.pdf · Attract-Repulse Fireworks Algorithm and its CUDA Implementation Using Dynamic Parallelism ... (with thousands

CUDA Matrix-Matrix Multiplication - SDSU Librarymthomas/sp17.605/lectures/CUDA...Matrix-Matrix Multiplication - CUDA Approach Current code only uses threadIdnx, so can only use 1 block

CUDA Parallelism Model

cuda - 101 basics. overview what is cuda? data parallelism host-device model thread execution...

Documents

libraries cuda

cuda threads

cuda programming model

cuda terminology

usefulhow cuda

computing ffts

parallel computing platform

dataparallel algorithms