本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础,是针对其需求设计的算力及基础架构。本书针对如何为大模型构建基础架构进行深入讲解,并基于TOGAF方法论,剖析业界知名案例的设计方案。
《大模型时代的基础架构:大模型算力中心建设指南》总计13章。*1章讲解AI与大模型时代对基础架构的需求;*2章讲解软件程序与专用硬件的结合,涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练;第3章剖析GPU的硬件架构,涉及GPU的总体设计、Nvidia GH100芯片架构和拥有其他Hopper架构的GPU;第4章讲解GPU服务器的设计与实现;第5章讲解机器学习所依托的I/O框架体系;第6章讲解GPU集群的网络设计与实现;第7章讲解GPU板卡算力调度技术;第8章讲解GPU虚拟化调度方案;第9章讲解GPU集群的网络虚拟化设计与实现;*10章讲解GPU集群的存储设计与实现;*11章讲解如何基于云原生技术为机器学习应用设计与实现更好的开发和运行平台;*12章讲解基于云平台的GPU集群的管理与运营,涉及云运维平台、云运营平台和云审计平台;*13章基于一个服务机器学习的GPU计算平台落地案例,展示如何针对机器学习应用进行需求分析、设计与实现。
无论是高等院校计算机与人工智能等相关专业的本科生或研究生,还是对并行计算技术、云计算技术、高性能存储及高性能网络技术感兴趣的研究人员或工程技术人员,都可以参考和阅读本书。
方天戟
腾讯专有云&席架构师,本科毕业于北京航空航天大学自动控制专业,硕士研究生毕业于中国科学院研究生院计算机科学与技术专业。从业近20年,从事过硬件开发、内核与驱动开发、协议栈开发、网络与云计算解决方案设计等工作,曾在华为、新华三、Juniper等企业任职,为航天科技、中国建筑、BMW及环球影城等国内外知名客户设计且落地过云计算与网络解决方案。“云鉴”丛书编写组核心成员。
微信公众号:帅云霓的技术小屋
在本书中,作者耗费大量心血,把大模型的核心架构用通俗易懂的方式讲给普罗大众,就是为了让更多的并不从事大模型建设工作的人理解这些内容。本书重点突出,讲解思路清晰。在大模型建设工作中要实现哪些目标?会遇到哪些困难?要克服或绕过这些困难,应该采用什么方法?本书条分缕析、引人入胜,给人以山阴道中移步换景的感觉。并且,本书通篇都在介绍怎样做架构,还围绕一个高远的目标,讲了如何思考、如何构建、功能如何相互照应。看了本书,我们大概可以理解一些软件的结构之美。同时,本书自身的内容架构就很精美,可供我们欣赏和借鉴。
中国电子企业协会副会长 | 宿东君
本书的出现恰逢其时:目前,大中型企业正处于在其数据中心内建设大模型基础设施的关键阶段,本书可为其提供指导。
本书不但讲解了大模型相关的基础技术,比如AI基本概念、GPU硬件、软件、虚拟化等,还讲解了大模型基础设施的核心内容,包括GPU集群存储、网络、I/O、算力调度、网络虚拟化、管理和运营等,并结合实际案例,讲解了如何进行机器学习应用开发与运行平台设计,在此过程中把本书中的重点内容“串联”起来进行了讲解,以期读者建立整体的认知。希望本书能成为助力国内大模型基础设施建设的“方天画戟”,也希望读者喜欢本书,能在阅读本书后有真正的收获。
腾讯云TVP,“世民谈云计算”微信公众号作者 | 刘世民
算力中心作为大模型基础架构,在其搭建过程中,除了大模型本身性能是否优异的问题,如何对与之关联的硬件进行部署、对硬件计算能力进行优化和提升,已经是绕不过去的突出问题。本书恰恰从这个角度给出了相应的解决方案,而且呈现的形式不是枯燥乏味的描述,而是能让读者在思考及会心一笑的状态下,了解大模型基础架构的整体形态和各子系统是如何运作的,以及是如何响应需求且充分利用平台资源的。这一亮点,在理论书籍盛行的计算机专业领域无异于一道甘泉。我真诚地希望读者能够发现本书,翻阅本书,喜爱本书。
江苏科技大学计算机学院 | 王琦
*1章 AI与大模型时代对基础架构的需求…… 001
1.1 我们在谈论AI时,到底在谈论什么… 002
1.2 机器学习算法初窥… ………………… 004
1.3 一元线性回归算法剖析… …………… 005
1.4 机器学习算法对计算机硬件的特殊需求… ………………… 007
1.4.1 机器学习算法的核心运算特征 …………………… 007
1.4.2 使用CPU实现机器学习算法和并行加速 ………… 009
1.4.3 机器学习算法的主力引擎——GPU ……………… 011
1.4.4 机器学习算法的新引擎——TPU和NPU ………… 014
1.5 本章小结… …… 018
*2章 软件程序与专用硬件的结合…………… 019
2.1 GPU并行运算库 020
2.2 机器学习程序的开发框架… ………… 024
2.3 分布式AI训练… 026
2.4 本章小结… …… 028
第3章 GPU硬件架构剖析… ………………… 030
3.1 GPU的总体设计 031
3.2 Nvidia GH100芯片架构剖析… …… 033
3.3 其他Hopper架构的GPU… ………… 039
3.4 本章小结… …… 039
第4章 GPU服务器的设计与实现… ………… 040
4.1 初识Nvidia DGX… ………………… 043
4.2 Nvidia DGX A100的总体设计……… 044
4.3 Nvidia DGX A100 CPU与内存子系统的设计… ………… 046
4.4 Nvidia DGX A100 PCI-E子系统的设计… ……………… 048
4.5 Nvidia DGX A100 NVLink子系统的设计………………… 051
4.6 其他辅助子系统的设计… …………… 053
4.7 本章小结… …… 054
第5章 机器学习所依托的I/O框架体系… …… 055
5.1 Magnum IO的需求来源… ………… 057
5.2 Magnum IO的核心组件… ………… 058
5.3 服务器内部的GPU互通……………… 059
5.4 跨服务器节点的GPU通信…………… 064
5.5 RDMA的两种实现…………………… 066
5.6 GPU对存储的访问…………………… 068
5.7 Magnum IO所依赖的其他支撑技术… …………………… 070
5.7.1 DPDK( Data Plane Development Kit,数据平面开发套件) ………… 070
5.7.2 DPU(Data Processing Unit,数据处理器) …… 071
5.7.3 MPI Tag Matching ………… 071
5.8 本章小结… …… 071
第6章 GPU集群的网络设计与实现… ……… 073
6.1 GPU集群中RoCE计算网络的设计与实现………………… 075
6.2 GPU集群中存储与业务网络的设计与实现………………… 078
6.3 GPU集群中带外管理监控网络的设计与实现……………… 083
6.4 GPU集群中网络边界的设计与实现… 084
6.5 本章小结… …… 086
第7章 GPU板卡级算力调度技术… ………… 088
7.1 基于虚拟化技术的GPU调度………… 089
7.2 基于容器技术的GPU调度…………… 095
7.3 本章小结… …… 100
第8章 GPU虚拟化调度方案… ……………… 101
8.1 Nvidia的GPU虚拟化调度方案……… 103
8.1.1 API Remoting与vCUDA …… 104
8.1.2 GRID vGPU ………………… 105
8.1.3 Nvidia MIG ………………… 106
8.2 其他硬件厂商的GPU虚拟化调度方案 108
8.2.1 AMD的SRIOV方案………… 108
8.2.2 Intel的GVT-G方案 ………… 109
8.3 云厂商与开源社区基于容器的GPU虚拟化调度方案……… 109
8.3.1 TKE vCUDA+GPU Manager 110
8.3.2 阿里云的cGPU……………… 112
8.3.3 腾讯云的qGPU …………… 113
8.4 本章小结… …… 114
第9章 GPU集群的网络虚拟化设计与实现… 115
9.1 基于SDN的VPC技术:网络虚拟化技术的基石… ……… 116
9.2 云负载均衡:机器学习网络的中流砥柱… ………………… 120
9.3 专线接入、对等连接与VPC网关…… 126
9.4 SDN NFV网关的实现与部署… …… 130
9.4.1 基于virtio-net/vhost的虚拟机部署NFV …………… 130
9.4.2 基于SRIOV的虚拟机部署NFV …………………… 132
9.4.3 使用DPDK技术对NFV加速 133
9.5 本章小结… …… 135
*10章 GPU集群的存储设计与实现………… 137
10.1 程序与系统存储——分布式块存储… …………………… 138
10.1.1 块存储的业务需求 ……… 138
10.1.2 集中式块存储与分布式块存储 ………………… 139
10.1.3 分布式块存储的故障恢复 142
10.1.4 分布式块存储的性能优化 145
10.1.5 分布式块存储的快照与回滚 …………………… 146
10.2 海量非结构化数据存储——分布式对象存储… ………… 148
10.2.1 入门级对象存储的*选:Ceph ………………… 149
10.2.2 开源海量对象存储:Swift 152
10.2.3 商业化对象存储:大型公有云对象存储私有化 154
10.2.4 未来之星:Minio ………… 156
10.3 AI训练素材存储——分布式并发高性能存储… ………… 157
10.3.1 开源大数据存储鼻祖:HDFS …………………… 159
10.3.2 业界对HDFS的改进 ……… 161
10.3.3 长青松柏:Lustre ………… 163
10.4 本章小结… … 166
*11章 机器学习应用开发与运行平台的设计与实现… …………… 167
11.1 微服务平台… 168
11.1.1 Kubernetes:微服务基础能力平台 ……………… 169
11.1.2 Spring Cloud:Java系专属微服务平台 ………… 173
11.1.3 Istio:不挑开发语言,只挑部署架构 …………… 176
11.1.4 商业化微服务平台:兼顾各类需求的选择……… 183
11.2 中间件服务… 189
11.2.1 消息中间件………………… 190
11.2.2 缓存中间件………………… 195
11.2.3 数据库(数据中间件)…… 197
11.3 应用日志服务… …………………… 201
11.4 本章小结… … 203
*12章 基于云平台的GPU集群的管理与运营 205
12.1 云运维平台… 206
12.1.1 硬件基础设施管理 ……… 206
12.1.2 系统监控与告警平台 …… 208
12.1.3 CMDB 210
12.2 云运营平台… 211
12.3 云审计平台… 212
12.4 本章小结… … 213
*13章 服务机器学习的GPU计算平台落地案例…………………… 214
13.1 需求来源:自动驾驶模型训练… … 215
13.2 总体设计——基于云原生的高性能计算… ……………… 218
13.3 计算需求分析与设计实现… ……… 218
13.4 存储需求分析与设计实现… ……… 219
13.5 网络需求分析与设计实现… ……… 220
13.6 本章小结… … 222
后记 223