《高性能计算技术丛书全5册 CUDA并行程序设计 GPU编程指南+CUDA C编程+基于CUDA的GPU并行程序开发指南+高性能计算现代系统与应用实践+并行程序设计概念与实践》[62M]百度网盘|亲测有效|pdf下载

书籍详情

高性能计算技术丛书全5册 CUDA并行程序设计 GPU编程指南+CUDA C编程+基于CUDA的GPU并行程序开发指南+高性能计算现代系统与应用实践+并行程序设计概念与实践
热度:10773
上架时间:2025-01-04 08:18:29
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

商品参数（机械工业出版社）

1	9787111448617	CUDA并行程序设计：GPU编程指南	99
2	9787111565475	CUDA C编程权威指南	99
3	9787111630616	基于CUDA的GPU并行程序开发指南	179
4	9787111645795	高性能计算：现代系统与应用实践	149
5	9787111656661	并行程序设计：概念与实践	119

内容简介

《基于CUDA的GPU并行程序开发指南》

旨在帮助读者了解与基于CUDA的GPU并行编程技术有关的基本概念，并掌握使用C语言进行GPU高性能编程的相关技巧。
　　《基于CUDA的GPU并行程序开发指南》共分为三部分，第一部分通过CPU多线程编程解释了并行计算，使得没有太多并行计算基础的读者也能毫无阻碍地入门CUDA；第二部分重点介绍了基于CUDA的GPU大规模并行程序的开发与实现，并通过大量的性能分析帮助读者理解如何开发一个好的GPU并行程序以及GPU架构对程序性能的影响：第三部分介绍了一些常用的CUDA库、OpenCL编程语言、其他GPU编程语言和API以及深度学习库cuDNN。
　　《基于CUDA的GPU并行程序开发指南》内容翔实、实例丰富，可作为高等院校相关专业高年级本科生和研究生课程的教材，也可作为计算机相关技术人员的参考书。

CUDA C编程权威指南

本书主要介绍了如何使用GPU和利用CUDAC语言对其进行编程的。首先从基本的CUDA概念及结构讲起，一步一步地引导读者进入CUDA的内部世界，由浅入深地介绍了其编程要求及其内部架构，使读者对其有了整体印象后，逐步深入了解其内部机能，后介绍了GPU的一些专用函数和注意事项。

《高性能计算系列丛书·CUDA并行程序设计：GPU编程指南》

是CUDA并行程序设计领域全面、详实和具专业性的著作之一，由CUDA开发者社区技术总监亲自撰写，英伟达中国首批CUDA官方认证工程师翻译，详实地讲解了CUDA并行程序设计的技术知识点（平台、架构、硬件知识、开发工具和热点技术）和编程方法，包含大量实用代码示例，实践性非常强。
　　《高性能计算系列丛书·CUDA并行程序设计：GPU编程指南》共分为12章。第1章从宏观上介绍流处理器演变历史。第2章详解GPU并行机制，深入理解串行与并行程序，以辩证地求解问题。第3章讲解CUDA设备及相关的硬件和体系结构，以实现优CUDA程序性能。第4章介绍CUDA开发环境搭建和可用调试环境。第5章介绍与CUDA编程紧密相关的核心概念——网格、线程块与线程，并通过示例说明线程模型与性能的关系。第6章借助实例详细讲解了不同类型内存的工作机制，并指出实践中容易出现的误区。第7章细述多任务的CPU和GPU协同，并介绍多个CPU/GPU编程秘技。第8章介绍如何在应用程序中编写和使用多GPU。第9章详述CUDA编程性能限制因素、分析CUDA代码的工具和技术。第10章介绍编程实践中的库与软件开发工具包。第11章讲解如何设计基于GPU的系统。第12章总结CUDA应用中易犯错误以及应对建议。

CUDA C编程权威指南

译者序
推荐序
自序
作者简介
技术审校者简介
前言
致谢
第1章　基于CUDA的异构并行计算1
1.1　并行计算1
1.1.1　串行编程和并行编程2
1.1.2　并行性3
1.1.3　计算机架构4
1.2　异构计算6
1.2.1　异构架构7
1.2.2　异构计算范例9
1.2.3　CUDA：一种异构计算平台10
1.3　用GPU输出Hello World12
1.4　使用CUDA C编程难吗15
1.5　总结16
1.6　习题16
第2章　CUDA编程模型18
2.1　CUDA编程模型概述18
2.1.1　CUDA编程结构19
2.1.2　内存管理20
2.1.3　线程管理24
2.1.4　启动一个CUDA核函数29
2.1.5　编写核函数30
2.1.6　验证核函数31
2.1.7　处理错误32
2.1.8　编译和执行32
2.2　给核函数计时35
2.2.1　用CPU计时器计时35
2.2.2　用nvprof工具计时39
2.3　组织并行线程40
2.3.1　使用块和线程建立矩阵索引40
2.3.2　使用二维网格和二维块对矩阵求和44
2.3.3　使用一维网格和一维块对矩阵求和47
2.3.4　使用二维网格和一维块对矩阵求和48
2.4　设备管理50
2.4.1　使用运行时API查询GPU信息50
2.4.2　确定最YGPU53
2.4.3　使用nvidia-smi查询GPU信息53
2.4.4　在运行时设置设备54
2.5　总结54
2.6　习题55
第3章　CUDA执行模型56
3.1　CUDA执行模型概述56
3.1.1　GPU架构概述57
3.1.2　Fermi架构59
3.1.3　Kepler架构61
3.1.4　配置文件驱动优化65
3.2　理解线程束执行的本质67
3.2.1　线程束和线程块67
3.2.2　线程束分化69
3.2.3　资源分配74
3.2.4　延迟隐藏76
3.2.5　占用率78
3.2.6　同步81
3.2.7　可扩展性82
3.3　并行性的表现83
3.3.1　用nvprof检测活跃的线程束84
3.3.2　用nvprof检测内存操作85
3.3.3　增大并行性86
3.4　避免分支分化88
3.4.1　并行归约问题88
3.4.2　并行归约中的分化89
3.4.3　改善并行归约的分化93
3.4.4　交错配对的归约95
3.5　展开循环97
3.5.1　展开的归约97
3.5.2　展开线程的归约99
3.5.3　完全展开的归约101
3.5.4　模板函数的归约102
3.6　动态并行104
3.6.1　嵌套执行105
3.6.2　在GPU上嵌套Hello World106
3.6.3　嵌套归约109
3.7　总结113
3.8　习题113
第4章　全局内存115
4.1　CUDA内存模型概述115
4.1.1　内存层次结构的优点116
4.1.2　CUDA内存模型117
4.2　内存管理124
4.2.1　内存分配和释放124
4.2.2　内存传输125
4.2.3　固定内存127
4.2.4　零拷贝内存128
4.2.5　统一虚拟寻址133
4.2.6　统一内存寻址134
4.3　内存访问模式135
4.3.1　对齐与合并访问135
4.3.2　全局内存读取137
4.3.3　全局内存写入145
4.3.4　结构体数组与数组结构体147
4.3.5　性能调整151
4.4　核函数可达到的带宽154
4.4.1　内存带宽154
4.4.2　矩阵转置问题155
4.5　使用统一内存的矩阵加法167
4.6　总结171
4.7　习题172
第5章　共享内存和常量内存174
5.1　CUDA共享内存概述174
5.1.1　共享内存175
5.1.2　共享内存分配176
5.1.3　共享内存存储体和访问模式176
5.1.4　配置共享内存量181
5.1.5　同步183
5.2　共享内存的数据布局185
5.2.1　方形共享内存185
5.2.2　矩形共享内存193
5.3　减少全局内存访问199
5.3.1　使用共享内存的并行归约199
5.3.2　使用展开的并行归约202
5.3.3　使用动态共享内存的并行归约204
5.3.4　有效带宽205
5.4　合并的全局内存访问205
5.4.1　基准转置内核205
5.4.2　使用共享内存的矩阵转置207
5.4.3　使用填充共享内存的矩阵转置210
5.4.4　使用展开的矩阵转置211
5.4.5　增大并行性214
5.5　常量内存215
5.5.1　使用常量内存实现一维模板215
5.5.2　与只读缓存的比较217
5.6　线程束洗牌指令219
5.6.1　线程束洗牌指令的不同形式220
5.6.2　线程束内的共享数据222
5.6.3　使用线程束洗牌指令的并行归约226
5.7　总结227
5.8　习题228
第6章　流和并发230
6.1　流和事件概述231
6.1.1　CUDA流231
6.1.2　流调度234
6.1.3　流的优先级235
6.1.4　CUDA事件235
6.1.5　流同步237
6.2　并发内核执行240
6.2.1　非空流中的并发内核240
6.2.2　Fermi GPU上的虚假依赖关系242
6.2.3　使用OpenMP的调度操作244
6.2.4　用环境变量调整流行为245
6.2.5　GPU资源的并发限制246
6.2.6　默认流的阻塞行为247
6.2.7　创建流间依赖关系248
6.3　重叠内核执行和数据传输249
6.3.1　使用深度优先调度重叠249
6.3.2　使用广度优先调度重叠252
6.4　重叠GPU和CPU执行254
6.5　流回调255
6.6　总结256
6.7　习题257
第7章　调整指令级原语258
7.1　CUDA指令概述259
7.1.1　浮点指令259
7.1.2　内部函数和标准函数261
7.1.3　原子操作指令262
7.2　程序优化指令264
7.2.1　单精度与双精度的比较264
7.2.2　标准函数与内部函数的比较266
7.2.3　了解原子指令272
7.2.4　综合范例277
7.3　总结279
7.4　习题280
第8章　GPU加速库和OpenACC281
8.1　CUDA库概述282
8.1.1　CUDA库支持的作用域283
8.1.2　通用的CUDA库工作流283
8.2　cuSPARSE库285
8.2.1　cuSPARSE数据存储格

基于CUDA的GPU并行程序开发指南

致中国读者
译者序
前言
第1章超级计算简史
1.1 简介
1.2 冯·诺依曼计算机架构
1.3 克雷
1.4 连接机
1.5 Cell处理器
1.6 多点计算
1.7 早期的GPGPU编程
1.8 单核解决方案的消亡
1.9 英伟达和CUDA
1.10 GPU硬件
1.11 CUDA的替代选择
1.11.1 OpenCL
1.11.2 DirectCompute
1.11.3 CPU的替代选择
1.11.4 编译指令和库
1.12 本章小结

第2章使用GPU理解并行计算
2.1 简介
2.2 传统的串行代码
2.3 串行/并行问题
2.4 并发性
2.5 并行处理的类型
2.5.1 基于任务的并行处理
2.5.2 基于数据的并行处理
2.6 弗林分类法
2.7 常用的并行模式
2.7.1 基于循环的模式
2.7.2 派生/汇集模式
2.7.3 分条/分块
2.7.4 分而治之
2.8 本章小结

第3章 CUDA硬件概述
3.1 PC架构
3.2 GPU硬件结构
3.3 CPU与GPU
3.4 GPU计算能力
3.4.1 计算能力1.0
3.4.2 计算能力1.1
3.4.3 计算能力1.2
3.4.4 计算能力1.3
3.4.5 计算能力2.0
3.4.6 计算能力2.1

第4章 CUDA环境搭建
4.1 简介
4.2 在Windows下安装软件开发工具包
4.3 VisualStudio
4.3.1 工程
4.3.2 64位用户
4.3.3 创建工程
4.4 Linux
4.5 Mac
4.6 安装调试器
4.7 编译模型
4.8 错误处理
4.9 本章小结

第5章线程网格、线程块以及线程
5.1 简介
5.2 线程
5.2.1 问题分解
5.2.2 CPU与GPU的不同
5.2.3 任务执行模式
5.2.4 GPU线程
5.2.5 硬件初窥
5.2.6 CUDA内核
5.3 线程块
5.4 线程网格
5.4.1 跨幅与偏移
5.4.2 X与Y方向的线程索引
5.5 线程束
5.5.1 分支
5.5.2 GPU的利用率
5.6 线程块的调度
5.7 一个实例——统计直方图
5.8 本章小结

第6章 CUDA内存处理
6.1 简介
6.2 高速缓存
6.3 寄存器的用法
6.4 共享内存
6.4.1 使用共享内存排序
6.4.2 基数排序
6.4.3 合并列表
6.4.4 并行合并
6.4.5 并行归约
6.4.6 混合算法
6.4.7 不同GPU上的共享内存
6.4.8 共享内存小结
6.5 常量内存
6.5.1 常量内存高速缓存
6.5.2 常量内存广播机制
6.5.3 运行时进行常量内存更新
6.6 全局内存
6.6.1 记分牌
6.6.2 全局内存排序
6.6.3 样本排序
6.7 纹理内存
6.7.1 纹理缓存
6.7.2 基于硬件的内存获取操作
6.7.3 使用纹理的限制
6.8 本章小结

第7章 CUDA实践之道
7.1 简介
7.2 串行编码与并行编码
7.2.1 CPU与GPU的设计目标
7.2.2 CPU与GPU上的最佳算法对比
7.3 数据集处理
7.4 性能分析
7.5 一个使用AES的示例
7.5.1 算法
7.5.2 AES的串行实现
7.5.3 初始内核函数
7.5.4 内核函数性能
7.5.5 传输性能
7.5.6 单个执行流版本
7.5.7 如何与CPU比较
7.5.8 考虑在其他GPU上运行
7.5.9 使用多个流
7.5.10 AES总结
7.6 本章小结

第8章多CPU和多GPU解决方案
8.1 简介
8.2 局部性
8.3 多CPU系统
8.4 多GPU系统
8.5 多GPU算法
8.6 按需选用GPU
8.7 单节点系统
8.8 流
8.9 多节点系统
8.10 本章小结

第9章应用程序性能优化
9.1 策略1：并行/串行在GPU/CPU上的问题分解
9.1.1 分析问题
9.1.2 时间
9.1.3 问题分解
9.1.4 依赖性
9.1.5 数据集大小
9.1.6 分辨率
9.1.7 识别瓶颈
9.1.8 CPU和GPU的任务分组
9.1.9 本节小结
9.2 策略2：内存因素
9.2.1 内存带宽
9.2.2 限制的来源
9.2.3 内存组织
9.2.4 内存访问以计算比率
9.2.5 循环融合和内核融合
9.2.6 共享内存和高速缓存的使用
9.2.7 本节小结
9.3 策略3：传输
9.3.1 锁页内存
9.3.2 零复制内存
9.3.3 带宽限制
9.3.4 GPU计时
9.3.5 重叠GPU传输
9.3.6 本节小结
9.4 策略4：线程使用、计算和分支
9.4.1 线程内存模式
9.4.2 非活动线程
9.4.3 算术运算密度
9.4.4 一些常见的编译器优化
9.4.5 分支
9.4.6 理解底层汇编代码
9.4.7 寄存器的使用
9.4.8 本节小结
9.5 策略5：算法
9.5.1 排序
9.5.2 归约
9.5.3 本节小结
9.6 策略6：资源竞争
9.6.1 识别瓶颈
9.6.2 解析瓶颈
9.6.3 本节小结
9.7 策略7：自调优应用程序
9.7.1 识别硬件
9.7.2 设备的利用
9.7.3 性能采样
9.7.4 本节小结
9.8 本章小结

第10章函数库和SDK
10.1 简介
10.2 函数库
10.2.1 函数库通用规范
10.2.2 NPP
10.2.3 Thrust
10.2.4 CuRAND
10.2.5 CuBLAS库
10.3 CUDA运算SDK
10.3.1 设备查询
10.3.2 带宽测试
10.3.3 SimpleP2P
10.3.4 asyncAPI和cudaOpenMP
10.3.5 对齐类型
10.4 基于指令的编程
10.5 编写自己的内核
10.6 本章小结

第11章规划GPU硬件系统
11.1 简介
11.2 CPU处理器
11.3 GPU设备
11.3.1 大容量内存的支持
11.3.2 ECC内存的支持
11.3.3 Tesla计算集群驱动程序
11.3.4 更高双精度数学运算
11.3.5 大内存总线带宽
11.3.6 系统管理中断
11.3.7 状态指示灯
11.4 PCI-E总线
11.5 GeForce板卡
11.6 CPU内存
11.7 风冷
11.8 液冷
11.9 机箱与主板
11.10 大容量存储
11.10.1 主板上的输入/输出接口
11.10.2 专用RAID控制器
11.10.3 HDSL
11.10.4 大容量存储需求
11.10.5 联网
11.11 电源选择
11.12 操作系统
11.12.1 Windows
11.12.2 Linux
11.1 3 本章小结

第12章常见问题、原因及解决方案
12.1 简介
12.2 CUDA指令错误
12.2.1 CUDA错误处理
12.2.2 内核启动和边界检查
12.2.3 无效的设备操作
12.2.4 volatile限定符
12.2.5 计算能力依赖函数
12.2.6 设备函数、全局函数和主机函数
12.2.7 内核中的流
12.3 并行编程问题
12.3.1 竞争冒险
12.3.2 同步
12.3.3 原子操作
12.4 算法问题
12.4.1 对比测试
12.4.2 内存泄漏
12.4.3 耗时的内核程序
12.5 查找并避免错误
12.5.1 你的GPU程序有多少错误
12.5.2 分而治之
12.5.3 断言和防御型编程
12.5.4 调试级别和打印
12.5.5 版本控制
12.6 为未来的GPU进行开发
12.6.1 开普勒架构
12.6.2 思考
12.7 后续学习资源
12.7.1 介绍
12.7.2 在线课程
12.7.3 教学课程
12.7.4 书籍
12.7.5 英伟达CUDA资格认证
12.8 本章小结
……

相关推荐

高性能计算技术丛书 全5册 CUDA并行程序设计 GPU编程指南+CUDA C编程+基于CUDA的GPU并行程序开发指南+高性能计算 现代系统与应用实践+并行程序设计 概念与实践

高性能计算技术丛书全5册 CUDA并行程序设计 GPU编程指南+CUDA C编程+基于CUDA的GPU并行程序开发指南+高性能计算现代系统与应用实践+并行程序设计概念与实践