书籍详情
《神经网络与深度学习》[65M]百度网盘|亲测有效|pdf下载
  • 神经网络与深度学习

  • 出版社:机械工业出版社
  • 作者:[美] 查鲁·C.阿加沃尔(Charu C. Aggarwal) 著,石川,杨成 译
  • 出版时间:2021-08-01
  • 热度:5199
  • 上架时间:2025-01-04 08:18:29
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

适读人群 :人工智能相关专业高年级本科生、研究生以及相关从业人员

本书是神经网络与深度学习经典教材的中译版,作译者均为领域专家,适合作为人工智能相关专业的教材,也具有很高的学术价值及实用价值。本书从神经网络基础开始介绍,重点讨论了传统机器学习和神经网络之间的关系,并对支持向量机、线性/逻辑回归、奇异值分解、矩阵分解、推荐系统和特征工程方法word2vec进行了研究。随后介绍神经网络的基本原理,详细讨论了训练和正则化,还介绍了径向基函数网络和受限玻尔兹曼机。以神经网络的高级主题作为结尾,讨论了循环神经网络和卷积神经网络,以及深度强化学习、神经图灵机、Kohonen自组织映射和生成对抗网络等。

本书作者还配套了习题、答案及PPT,以帮助课堂教学。在可能的情况下,突出显示以应用程序为中心的视图,以便提供对每一类技术的实际用途的理解。


内容简介

本书涵盖了经典和现代的深度学习模型。章节分为三类:第1部分为神经网络的基础。许多传统的机器学习模型可以理解为神经网络的特殊情况。前两章的重点是理解传统机器学习和神经网络之间的关系。支持向量机、线性/逻辑回归、奇异值分解、矩阵分解和推荐系统都是神经网络的特例。本书将这些方法与特征工程方法如word2vec一起进行了研究。第2部分是神经网络的基本原理。训练和正则化的详细讨论在第3章和第4章提供。第5章和第6章介绍了径向基函数(RBF)网络和受限的玻尔兹曼机。第3部分是神经网络的高级主题:第7章和第8章讨论了循环神经网络和卷积神经网络。第9章和第10章介绍了几个高级主题,如深度强化学习、神经图像机、Kohonen自组织映射和生成对抗网络。这本书是为研究生、研究人员和实践者编写的。大量的练习和一个解决方案手册,以帮助在课堂教学。在可能的情况下,突出显示以应用程序为中心的视图,以便提供对每一类技术的实际用途的理解。


作者简介

查鲁·C. 阿加沃尔(Charu C. Aggarwal)是位于美国纽约州约克敦海茨的IBM T. J. Watson 研究中心的杰出研究员,于1996年获麻省理工学院博士学位。他发表了350多篇论文,拥有80多项专利,撰写或编著了18本图书(涵盖数据挖掘、机器学习、推荐系统和离群点分析等领域)。由于其专利的商业价值,IBM三次授予他“创新大师”称号。他曾获EDBT会议颁发的久经考验奖(2014)和IEEE ICDM研究贡献奖(2015)。他曾担任数据挖掘领域许多大型会议的联席程序主席或联席总主席,目前是ACM SIGKDD Explorations和ACM Transactions on Knowledge Discovery from Data的主编。他由于对知识发现和数据挖掘算法的贡献而当选了SIAM、ACM和IEEE的会士。

目录

译者序
前言
致谢
作者简介
第1章神经网络概论111简介1
12神经网络的基本架构3
121单层计算网络:感知机3
122多层神经网络13
123多层网络即计算图15
13利用反向传播训练神经网络16
14神经网络训练中的实际问题19
141过拟合问题19
142梯度消失与梯度爆炸问题22
143收敛问题22
144局部最优和伪最优22
145计算上的挑战23
15复合函数的能力之谜23
151非线性激活函数的重要性25
152利用深度以减少参数26
153非常规网络架构27
16常见网络架构28
161浅层模型模拟基础机器学习方法28
162径向基函数网络29
163受限玻尔兹曼机29
164循环神经网络30
165卷积神经网络31
166层次特征工程与预训练模型32
17高级主题34
171强化学习34
172分离数据存储和计算34
173生成对抗网络35
18两个基准35
181MNIST手写数字数据库35
182ImageNet数据库36
19总结37
110参考资料说明37
1101视频讲座38
1102软件资源39
111练习39
第2章基于浅层神经网络的机器学习41
21简介41
22二分类模型的神经架构42
221复习感知机42
222最小二乘回归44
223逻辑回归47
224支持向量机49
23多分类模型的神经架构50
231多分类感知机51
232WestonWatkins支持向量机52
233多重逻辑回归(softmax分类器)53
234应用于多分类的分层softmax54
24反向传播可以用于特征选择和神经网络的可解释性54
25使用自编码器进行矩阵分解55
251自编码器的基本原则55
252非线性激活函数59
253深度自编码器60
254应用于离群点检测62
255当隐藏层比输入层维数高时63
256其他应用63
257推荐系统:行索引到行值的预测65
258讨论67
26word2vec:简单神经架构的应用67
261连续词袋的神经嵌入68
262skipgram模型的神经嵌入70
263word2vec(SGNS)是逻辑矩阵分解74
264原始skipgram模型是多项式矩阵分解76
27图嵌入的简单神经架构76
271处理任意数量的边78
272多项式模型78
273与DeepWalk和node2vec的联系78
28总结78
29参考资料说明79
210练习80
第3章深度神经网络的训练8231简介82
32反向传播的详细讨论83
321计算图抽象中的反向传播83
322前来拯救的动态规划87
323使用激活后变量的反向传播88
324使用激活前变量的反向传播89
325不同激活函数的更新示例91
326以向量为中心的反向传播的解耦视图92
327多输出节点及隐藏节点下的损失函数94
328小批量随机梯度下降95
329用于解决共享权重的反向传播技巧96
3210检查梯度计算的正确性97
33设置和初始化问题98
331调整超参数98
332特征预处理99
333初始化100
34梯度消失和梯度爆炸问题101
341对梯度比例影响的几何理解102
342部分解决:激活函数的选择103
343死亡神经元和“脑损伤”104
35梯度下降策略105
351学习率衰减105
352基于动量的学习106
353参数特异的学习率108
354悬崖和高阶不稳定性111
355梯度截断112
356二阶导数112
357Polyak平均118
358局部极小值和伪极小值119
36批归一化120
37加速与压缩的实用技巧123
371GPU加速123
372并行和分布式实现125
373模型压缩的算法技巧126
38总结128
39参考资料说明128
310练习130
第4章让深度学习器学会泛化132
41简介132
42偏差方差权衡135
43模型调优和评估中的泛化问题138
431用留出法和交叉验证法进行评估139
432大规模训练中的问题140
433如何检测需要收集更多的数据141
44基于惩罚的正则化141
441与注入噪声的联系142
442L1正则化143
443选择L1正则化还是L2正则化143
444对隐藏单元进行惩罚:学习稀疏表示144
45集成方法145
451装袋和下采样145
452参数模型选择和平均146
453随机连接删除146
454Dropout147
455数据扰动集成149
46早停149
47无监督预训练150
471无监督预训练的变体153
472如何进行监督预训练154
48继续学习与课程学习154
481继续学习155
482课程学习156
49共享参数156
410无监督应用中的正则化157
4101基于值的惩罚:稀疏自编码器157
4102噪声注入:去噪自编码器157
4103基于梯度的惩罚:收缩自编码器158
4104隐藏层概率结构:变分自编码器161
411总结166
412参考资料说明166
413练习168
第5章径向基函数网络169
51简介169
52RBF网络的训练171
521训练隐藏层171

前言/序言

译者序


当机械工业出版社华章公司的编辑找我翻译深度学习书籍时,我本能地拒绝了,因为太耗费时间了。但当得知是要翻译Charu C. Aggarwal的Neural Networks and Deep Learning:A Textbook,我立刻表示有兴趣。

Charu C. Aggarwal博士是数据挖掘领域天才式的大牛。当我作为访问学者于2010年在伊利诺伊大学芝加哥分校的Philip S. Yu教授那里访问的时候,就听说过不少Charu博士的神奇传说:3年从MIT博士毕业;在IBM T. J. Watson研究院的Philip S. Yu手下实习时,3个月写了3篇论文;写论文一般只写摘要和引言,后面找人做一下实验就可以了。Charu博士和Philip S. Yu教授有长期深入的合作,Yu教授的不少学生也和Charu有合作。很遗憾我没能和Charu直接合作,但在ASONAM2014于北京国际会议中心举行时,Charu博士做大会特邀报告,我有幸见到他,并进行了深入交流。虽然看起来像个腼腆纯粹的大男孩,但是Charu博士绝对是数据挖掘领域的顶尖学者。

Charu博士是IBM T. J. Watson 研究院的杰出研究员(Distinguished Research Staff Member,DRSM)。他在数据挖掘领域有深入研究,特别关注数据流、数据隐私、不确定数据和社交网络分析,并取得了杰出的成就:出版了18本著作,发表了350多篇会议和期刊论文,拥有80多项专利,H. index高达120。此外,他也获得了众多学术奖励,例如IEEE Computer Society的最高奖励W. Wallace McDowell Award和ACM SIGKDD Innovation Award(2019)。

本书是神经网络和深度学习的百科全书,既涉猎了深度神经网络的所有重要方向,也深入介绍了各类模型的技术技巧和最新进展。具体而言,本书第1~4章讲解了神经网络的基本概念与原理、浅层神经网络的经典应用、深度神经网络的训练方法与技巧等;第5~8章介绍了四类广泛使用的神经网络架构,包括经典的径向基函数(RBF)网络、受限玻尔兹曼机(RBM)、循环神经网络(RNN)、卷积神经网络(CNN);第9章和第10章介绍了深度学习的前沿方向与模型框架,如深度强化学习、注意力机制、生成对抗网络等。本书既是机器学习和深度学习的入门教材,也是学术研究和工程技术的重要参考资料。

自2019年10月起,我们便组织实验室的同学共同阅读学习该书的内容,并在每周的组会上进行讲解介绍。随后组织翻译工作,并于2020年上半年完成了翻译初稿。后经2~3轮的仔细校对、修改,最终于2020年年底完成了全书的翻译。有很多人对本书的翻译工作做出了贡献,他们是:庄远鑫、赵天宇、杨雨轩、吴文睿、贾天锐、江训强、王贞仪、王浩、刘佳玮、郝燕如、楚贯一、张舒阳、王晓磊、王春辰、许斯泳、刘念、刘佳玥。石川负责本书翻译的组织和审校工作,杨成具体负责本书的翻译和审校工作。在此,对所有为本书翻译工作做出了贡献的人员表示感谢!





前言

任何能通过图灵测试的人工智能都知道不应该通过这个测试。
——Ian McDonald


神经网络是通过以类似人类神经元的方式处理学习模型中的计算单元来模拟人类神经系统以完成机器学习任务。神经网络的宏伟愿景是通过构建一些模拟人类神经系统计算架构的机器来创造人工智能,由于当今最快的计算机的计算能力也无法企及人脑计算能力,所以这显然不是一项简单的任务。神经网络在20世纪五六十年代计算机出现后不久得到了迅速发展,Rosenblatt 的感知机算法被视作神经网络的基石,这引起了人们对人工智能前景的早期关注和兴奋。然而在这种早期的兴奋过后,神经网络对数据的渴求和计算过于密集的特性成为其大展宏图的障碍,它度过了一段令人失望的时期。最终,在世纪之交,海量的可用数据以及不断增长的计算能力使得神经网络重振雄风,并在人们视线中以新的名称——深度学习出现。虽然人工智能匹敌人类智能的那一天离我们还很遥远,但在图像识别、自动驾驶和博弈等特定领域,人工智能已经比肩甚至超过了人类智能。我们也很难预测人工智能将来的上限是什么。例如,二十多年前,很少有计算机视觉专家会想到会有自动化系统能够比人类更准确地执行图像分类这种直观的任务。
理论上,神经网络能够通过足够的训练数据学习任何数学函数,现在已知一些变体(如循环神经网络)是图灵完备的。图灵完备是指在给定足够的训练数据的情况下,神经网络可以拟合任何学习算法。其不足之处在于,即使是对于简单的任务,往往也需要大量的训练数据,这导致相应的训练时间也增加了(如果我们首先假设有足够的训练数据)。例如,图像识别对人类来说是一项简单的任务,但即使在高性能系统中,其训练时间也可能长达几周。此外,还有与神经网络训练的稳定性相关的实际问题,这些问题甚至在如今都还没有解决。然而,考虑到计算机的计算速度会随着时间的推移而迅速提高,而且从根本上来说,更强大的计算范式(如量子计算)也即将出现,计算问题最终可能不会像想象的那样难以解决。
虽然神经网络的生物学类比是令人惊奇的,并且引发了与科幻小说的比较,但相比之下对神经网络的数学理解则更平凡。神经网络的抽象化可以被视为一种模块化的方法,使基于输入和输出之间依赖关系的计算图上的连续优化的学习算法成为可能。平心而论,这和控制理论中的传统工作没有太大区别——事实上,控制理论中的一些用于优化的方法与神经网络中最基本的算法惊人地相似(历史上也是如此)。然而,近年来大量的可用数据以及计算能力的提升,使得能够对这些计算图进行比以前有着更深的架构的实验。由此带来的成功改变了人们对深度学习潜力的广泛认识。
本书的章节结构如下:
1 神经网络的基础知识:第1章讨论神经网络设计的基础知识。许多传统的机器学习模型可以理解为神经网络学习的特殊情况。理解传统机器学习和神经网络之间的关系是理解后者的第一步。第2章用神经网络对各种机器学习模型进行了模拟,旨在让分析者了解神经网络是如何挑战传统机器学习算法的极限的。
2 神经网络的基本原理:第3章和第4章提供对训练挑战的更详细的叙述。第5章和第6章介绍径向基函数(RBF)网络和受限玻尔兹曼机。
3 神经网络的进阶主题:深度学习最近的很多成功是各种领域的特定架构的结果,例如循环神经网络和卷积神经网络。第7章和第8章分别讨论循环神经网络和卷积神经网络。第9章和第10章讨论一些进阶主题,如深度强化学习、神经图灵机和生成对抗网络。
我们所关注的内容中包含一些“被遗忘”的架构,如径向基函数网络和Kohonen自组织映射,因为它们在许多应用中具有潜力。本书是为研究生、研究人员和从业者写的。许多练习和解决方案手册都有助于课堂教学。在可能的情况下,本书突出以应用程序为中心的视角,以便让读者对该技术有所了解。
在本书中,向量或多维数据点都通过在字母上方加一条横线来表示,如X或y。向量点积用居中的点表示,比如X·Y。矩阵用不带横线的斜体大写字母表示,比如R。在本书中,对应整个训练数据集的n×d矩阵代表n个d维数据,该矩阵用D表示。因此,D中的各个数据点是d维行向量。另外,每个分量代表一个数据点的向量通常是n维列向量,例如具有n个数据点作为类变量的n维列向量y。观测值yi与预测值y∧i的区别在于变量顶部的扬抑符。

Charu C Aggarwal
美国纽约州约克敦海茨