数据科学被誉为新时代的石油,这一观点多年前首次被提出时,许多人对此嗤之以鼻。然而,随着时间的推移,越来越多的人开始意识到这一观点的准确性。如今,数据科学已经渗透到各个行业,企业在运营的每一步都试图利用丰富的数据资源来提高效率。因此,对于个人来说,至少熟悉一些基本的算法和工具来分析各自领域的数据,以便更好地理解趋势并做出更好的决策,这是非常有意义的。
如果已经在数据科学的旅程中,一定意识到了提升自己并实际应用复杂算法以获得更好结果的重要性。但像往常一样,总是想知道从哪里开始。本文将为提供帮助,分享9本必须在2020年底前加入书单的顶级免费数据科学书籍。
《统计学习与稀疏性:Lasso及其推广》由Trevor Hastie、Robert Tibshirani和Martin Wainwright合著,这本书涵盖了统计学习的所有主要分支。对于每个主题,首先简要介绍基本问题,评估传统方法,指出其不足之处,然后介绍基于稀疏性的方法。书中总是先讨论基于方程的正则化模型,然后是示例应用,最后是详细历史发展的参考文献部分。
《数据科学领域指南》由Booz Allen Hamilton的员工共同撰写,这本书介绍了数据科学的主题,展示了在该领域工作所需的工具,并稍微扩展了背景知识。它基本上是一个主题介绍,但写得非常好,包含特别有创意的信息图表和插图。还有一个部分应该被每个在该领域工作的人打印出来,即如何选择正确的技术来解决每个问题的部分。
《统计学习导论》由Gareth M. James、Daniela Witten、Trevor Hastie和Robert Tibshirani合著,这本书是一个永恒的经典。在遇到的大多数机器学习课程中都推荐或参考过这本书,它写得非常好。它涵盖了基础统计学以及机器学习技术。这本书的亮点是每个概念都通过R中的案例研究来解释。所以一旦对编程有了把握,总是可以回来再次尝试每个概念。还有什么比通过多次实践更好地巩固概念的方法呢?
《凸优化》第一版由Stephen Boyd撰写,这本书不适合初学者。这本书向介绍了凸优化的概念,几乎所有的机器学习和深度学习算法都使用它来达到最优参数。这本书适合那些希望通过优化进入机器学习世界的人。这是除了通过统计学之旅之外的另一种方法。
《数据挖掘与分析》由Mohammed J. Zaki和Wagner Meira Jr.撰写,这本书为数据挖掘提供了一个很好的数学背景入门,以及基础的统计机器学习。这本教科书提供了一个广泛而深入的数据挖掘概述,整合了来自机器学习和统计学的相关概念。书中的主要部分包括探索性数据分析、模式挖掘、聚类和分类。