【编辑推荐】
加雷斯·詹姆斯(Gareth James) 斯坦福大学统计学博士,师从Trevor Hastie。埃默里大学数据科学和运筹学教授,E. Morgan Stanley 工商管理。他在统计学习领域发表了大量的方法论著作,特别强调高维数据和函数数据。丹妮拉·威滕(Daniela Witten) 斯坦福大学统计学博士,师从Robert Tibshirani。华盛顿大学统计学与生物统计学教授、Dorothy Gilford 讲席教授。她的研究主要集中在用于分析复杂、混乱和大规模数据的统计机器学习技术上,重点是无监督学习。特雷弗·哈斯帖(Trevor Hastie) 斯坦福大学统计学教授、John A. Overdeck数学教授、生物医学数据科学教授,美国科学院院士。他参与开发了 R/S-PlUS 中的大部分统计建模软件和环境,发明了主曲线和主曲面。罗伯特·提布施瓦尼(Robert Tibshirani) 斯坦福大学统计学教授、生物医学数据科学教授。他提出了lasso, 与Hastie一起建立了广义加性模型。
【内容简介】
本书介绍了一些重要的建模和预测技术以及相关应用,涵盖以下主题:线性回归、分类、重采样方法、收缩方法、基于树的方法、支持向量机、聚类、深度学习、生存分析、多重测试等。书中每一章都包含一个教程,通过图形和实例介绍如何实现R语言提供的分析方法。本书还提供了关于深度学习、生存分析和多重测试的新章节,以及朴素贝叶斯、广义线性模型、贝叶斯加性回归树和矩阵补全的扩展内容,并对R代码进行了全面更新。本书旨在帮助科学、工业和其他领域的从业人员学习和应用这些统计学习技术。
【目录】
目录
译者序
前言
第1章导论1
11统计学习概述1
12统计学习简史4
13关于本书4
14本书的读者群6
15记号与简单矩阵代数6
16本书的内容安排8
17用于实验和习题的数据集9
18本书网站10
19致谢10
第2章统计学习11
21什么是统计学习11
22评价模型精度21
23实验:R语言简介31
24习题39
第3章线性回归43
31简单线性回归44
32多元线性回归51
33回归模型中的其他注意事项60
34营销计划75
35线性回归与K最近邻法的
比较76
36实验:线性回归80
37习题89
第4章分类95
41分类问题概述95
42为什么线性回归不可用96
43逻辑斯谛回归98
44用于分类的生成模型104
45分类方法的比较116
46广义线性模型121
47实验:分类方法126
48习题141
第5章重抽样方法146
51交叉验证法146
52自助法154
53实验:交叉验证法和自助法157
54习题163
第6章线性模型选择与正则化167
61子集选择168
62压缩估计方法175
63降维方法185
64高维问题192
65实验:线性模型和正则方法196
66习题210
第7章非线性模型214
71多项式回归214
72阶梯函数216
73基函数217
74回归样条218
75光滑样条223
76局部回归225
77广义可加模型227
78实验:非线性建模230
79习题239
第8章基于树的方法242
81决策树基本原理242
82装袋法、随机森林、提升法和
贝叶斯加性回归树250
83实验:决策树260
84习题267
第9章支持向量机270
91间隔分类器270
92支持向量分类器274
93狭义的支持向量机278
94多分类的支持向量机283
95与逻辑斯谛回归的关系284
96实验:支持向量机285
97习题293
第10章深度学习297
101单隐层神经网络297
102多隐层神经网络300
103卷积神经网络303
104文本分类310
105循环神经网络312
106深度学习适用场景320
107拟合神经网络321
108插值和双下降325
109实验:深度学习328
1010习题342
第11章生存分析与删失数据344
111生存时间与删失时间344
112细说删失345
113KanMeier生存曲线346
114对数秩检验348
115生存响应下的回归模型350
116Cox模型的压缩357
117其他主题359
118实验:生存分析361
119习题368
第12章无监督学习372
121无监督学习的挑战372
122主成分分析373
123缺失值与矩阵补全382
124聚类分析方法386
125实验:无监督学习397
126习题411
第13章多重检验415
131假设检验的快速回顾416
132多重检验的挑战420
133族错误率421
134假发现率428
135计算p值和假发现率的重采样
方法431
136实验:多重检验436
137习题445
3,5
【作者简介】
加雷斯·詹姆斯(Gareth James) 斯坦福大学统计学博士,师从Trevor Hastie。埃默里大学数据科学和运筹学教授,E. Morgan Stanley 工商管理。他在统计学习领域发表了大量的方法论著作,特别强调高维数据和函数数据。
丹妮拉·威滕(Daniela Witten) 斯坦福大学统计学博士,师从Robert Tibshirani。华盛顿大学统计学与生物统计学教授、Dorothy Gilford 讲席教授。她的研究主要集中在用于分析复杂、混乱和大规模数据的统计机器学习技术上,重点是无监督学习。
特雷弗·哈斯帖(Trevor Hastie) 斯坦福大学统计学教授、John A. Overdeck数学教授、生物医学数据科学教授,美国科学院院士。他参与开发了 R/S-PlUS 中的大部分统计建模软件和环境,发明了主曲线和主曲面。
罗伯特·提布施瓦尼(Robert Tibshirani) 斯坦福大学统计学教授、生物医学数据科学教授。他提出了lasso, 与Hastie一起建立了广义加性模型。
【前言】
前言
统计学习是一套用于理解和分析复杂数据集的重要工具。近年来,数据收集的应用规模和范围在科学与工业的各个领域都呈现爆炸式增长。在这种背景下,统计学习成为不可或缺的理解数据的工具。如今,越来越多的工作与数据密切相关,因此对统计学习这类关键工具的需求也越来越大。
统计学习领域的开山之作——《统计学习基础》(The Elements of Statistical Learning,ESL,作者Hastie、Tibshirani和Friedman)于2001年出版,并于2009年出版了第2版。现在,ESL已成为统计学界及相关领域的一本非常受欢迎的教材。ESL之所以深受读者喜爱是因为ESL平实易懂的写作风格容易被广大读者接受。但事实上,它更适合接受过高等专业数学训练的读者阅读。
本书的写作初衷是满足那些既希望了解统计学习的关键领域,同时又不希望涉及过多专业细节的读者。相较于ESL,本书更加注重方法应用而非方法背后的数学细节。从第2章开始,每章都包含一个实验部分,展示如何使用R软件实现该章涉及的统计学习方法。这些实验能够为读者提供宝贵的实操经验。
本书不仅适合统计学和数据分析领域的高年级本科生及硕士生阅读,也适合那些致力于运用统计学习工具对自己专业的数据进行分析的人群阅读。此外,本书也可作为一本涵盖两个学期课程内容的教材。
上一版介绍过许多统计学习领域的重要主题,包括分类和回归的稀疏方法、决策树、提升法、支持向量机和聚类方法。自2013年出版以来,它已经成为全世界本科生和研究生的主流教材,也成为数据科学家的重要参考书。
本书是升级版,对涉及的统计学习主题范围进行了极大扩展。具体而言,新增加了深度学习(第10章)、生存分析与删失数据(第11章)和多重检验(第13章)等主题。同时对第1版部分章节进行了扩充,增加了朴素贝叶斯模型和广义线性模型(第4章)、贝叶斯加性回归树(第8章)以及矩阵补全(第12章)等内容。此外,实验部分的R代码也进行了相应的更新,以确保其运行的环境与主流版本的R软件兼容。
这些改进使得本书成为一本更加全面且具有实用价值的工具书,能够满足读者深入理解统计学习领域的需求。
在此,我们衷心感谢那些曾经阅读过初稿并提出宝贵意见的人:Pallavi Basu、Alexandra Chouldechova、Patrick Danaher、Will Fithian、Luella Fu、Sam Gross、Max Grazier GSell、Courtney Paulson、Xinghao Qiao、Elisa Sheng、Noah Simon、Kean Ming Tan和Xin Lu Tan。此外,也要感谢对本书提供宝贵意见的读者:Alan Agresti、Iain Carmichael、Yiqun Chen、Erin Craig、Daisy Ding、Lucy Gao、Ismael Lemhadri、Bryan Martin、Anna Neufeld、Geoff Tims、Carsten Voelkmann、Steve Yadlowsky和 James Zou。我们还要特别感谢Anna Neufeld协助修改本书中的R代码。同样,我们非常感谢Balasubramanian“Naras”Narasimhan对本书所提供的帮助。
上一版的发行对于统计学习方法应用产生了不可忽视的重要影响,这对我们来说是一项莫大的荣耀。我们希望在这个数据驱动的时代,本书能成为当下以及未来的应用统计学家和数据科学家获得成功所需的有效工具书。
预测之难测,未来更未知。——Yogi Berra