|
|
深入理解 GPU 计算: CUDA 编程指南 原价415元,本站会员免费下载学习!
课程简介:
本课程介绍NVIDIA GPU 计算的基本知识, 例如 NVIDIA GPU 计算核心架构, 内存架构, 内存模型和执行模型. 在接下来的课程, 将讲述CUDA编程的技术细节, 特别在最后本课程将详细介绍规约操作. 规约是很重要的操作, 并且实现难度大. 通过本课程, 希望学生可以掌握CUDA编程的基本知识.
-- GPU 计算基本概念
-- CUDA 编程基本概念
-- 网格, 线程块, 线程多层次结构
-- 网格, 线程块与线程到实际问题如何映射
-- 硬件处理器多层次结构
-- GPU 多层次内存: 寄存器, 高速缓存, 共享内存, 全局内存
-- 线程块与线程块如何调度
-- warp 如何划分与调度
-- 全局内存如何管理
-- 共享内存如何使用
-- 如何实现 CUDA 多层次同步: 核函数, 线程块, warp
-- 什么是规约算法
-- 如何设计高效规约算法
-- 如何在warp内构造更小的线程组
-- 如何在warp内实现通信
-- 合作组 (Cooperative Groups)
-- 如何优化CUDA 程序
课程目录:
1 课程介绍.mp4
2 什么是 GPU 计算.mp4
3 GPU 硬件架构综述.mp4
4 处理器空间.mp4
5 内存空间.mp4
6 GPU 计算能力.mp4
7 如何编写 CUDA 程序.mp4
8 如何编译 CUDA 程序.mp4
9 函数修饰符.mp4
10 内存修饰符.mp4
11 内建-内置向量.mp4
12 内建变量.mp4
13 CUDA 编程模型.mp4
14 CUDA 程序执行与硬件映射.mp4
15 程序解析- 向量加法.mp4
16 主机函数- __host__.mp4
17 设备函数- __device__.mp4
18 核函数- __global__.mp4
19 网格.mp4
20 线程块.mp4
21 网格维度- gridDim.mp4
22 线程块维度- blockDim.mp4
23 线程块 ID- blockIdx.mp4
24 线程 ID- threadIdx.mp4
25 线程调度.mp4
26 线程块与线程映射.mp4
27 例子- 向量加法.mp4
28 如何启动核函数.mp4
29 线程执行顺序.mp4
30 GPU 内存介绍.mp4
31 CPU 内存介绍.mp4
32 页锁定内存.mp4
33 GPU 内存如何管理.mp4
34 CPU 内存管理.mp4
35 页锁定内存管理.mp4
36 全局内存管理.mp4
37 例子- 全局内存.mp4
38 什么是共享内存.mp4
39 共享内存冲突.mp4
40 共享内存 Bank.mp4
41 共享内存 bank 冲突- 计算能力 1.x.mp4
42 共享内存 bank 冲突- 计算能力 2.0 及以上.mp4
43 共享内存应用- 加**约.mp4
44 内存拷贝- cudaMemcpy.mp4
45 例子- 内存管理.mp4
46 内存空间类型查询 (Address Space).mp4
47 向量操作.mp4
48 稀疏矩阵存储格式.mp4
49 稀疏矩阵向量乘法 (SpMV).mp4
50 什么是同步.mp4
51 核函数同步.mp4
52 线程块同步.mp4
53 Warp 同步.mp4
54 Warp 同步概述.mp4
55 什么是规约算法- 如何并行.mp4
56 并行规约算法-1- 二叉树算法.mp4
57 并行规约算法-2- 改进 warp divergence.mp4
58 并行规约算法-3- 改进共享内存访问 消除冲突.mp4
59 并行规约算法-4- 改进全局内存访问.mp4
60 并行规约算法-5- warp 内循环展开.mp4
61 并行规约算法-6- 完全循环展开.mp4
62 并行规约算法:成功优化的关键.mp4
63 完整并行规约算法: 三阶段算法与完整代码.mp4
64 并行规约算法应用- 内积.mp4
65 线程调度概述.mp4
66 Warp 投票函数.mp4
67 Warp 匹配函数.mp4
68 Warp 规约操作.mp4
69 Warp 内通信- 交换数据.mp4
70 例子- __activemask.mp4
71 例子- __ballot_sync.mp4
72 例子- __shfl_down_sync.mp4
73 例子- warp 内广播.mp4
74 例子- warp 内 scan 操作 (扫描).mp4
75 例子- warp 内规约操作.mp4
76 Cooperative Groups (合作组).mp4
77 隐式组类型 (内建组类型- 内置组类型).mp4
78 例子- 向量加法-1645693606.mp4
79 显式棋盘组划分 (Tiled Partition).mp4
80 合并组 (Coalesced Groups).mp4
81 例子- 合并组.mp4
82 例子- warp 内广播-1645693728.mp4
83 例子- warp 内广播 2.mp4
84 组划分 (tiled_partition).mp4
85 组划分- labeled_partition.mp4
86 例子- 合并组标记划分.mp4
87 组划分- binary_partition.mp4
88 例子- 合并组二分划分.mp4
89 组同步.mp4
90 网格组同步.mp4
91 规约操作 (Reduce).mp4
92 例子- 规约算法 1.mp4
93 例子- 规约算法 2.mp4
94 例子- 规约算法 3.mp4
95 例子- 规约算法 4.mp4
96 CUDA 程序概述.mp4
97 CUDA 程序优化- 探索并行化.mp4
98 CUDA 程序优化- GPU 内存优化策略.mp4
99 CUDA 程序优化- 指令优化.mp4
配套课程资料.zip
下载地址
|
|