对于数据科学家或有志于成为数据科学家的人来说,阅读专业书籍是提升技能的重要途径。与以往的书单不同,这些书籍并非轻松读物,而是专为那些热爱编程和统计学的人准备的——这正是数据科学家应有的特质。
可以预见的是,这些书籍主要使用两种语言来传授知识——R和Python。如果是一名数据科学家或有志于此,应该将这些书籍视为书架上的必备品。由于某种奇怪的原因,个人更倾向于收藏这些书籍的纸质版而非Kindle版——这只是个人选择。可能更喜欢走到书架前,思考哪本书最适合当前正在处理的问题。
以下是R语言相关的书籍推荐(首先是R语言的书籍,然后是Python语言的书籍):
:Paul Teetor
这是开始R语言之旅的最佳书籍。它包含了大量的示例和实用建议,涵盖了从文件输入/输出、数据操作、合并和排序到构建回归模型等一系列广泛的主题。对于R语言的初学者来说,这本书在最初的测试阶段将成为最好的伙伴。
尽管这本书的目标读者是初学者,但它仍然是任何数据科学家图书馆中的重要部分。
:Drew Conway & John Myles White
认为这本书的标题实际上是错误的。曾两次放弃购买它,直到在一位密友的推荐下才尝试阅读。这本书是为数据科学家而非黑客准备的。不知道为什么标题会这么说。这是一本非常实用的机器学习手册,它配有良好的视觉图表,可以获得Python代码的副本(原书基于R)。
:Winston Chang
不能成为一名优秀的数据科学家,除非掌握了R语言中的图形!没有比学习ggplot2更好的可视化方法了。遗憾的是,学习ggplot2可能看起来像是学习一种全新的语言。这就是这本“食谱书”发挥作用的地方。Winston提供的食谱简短、甜美且切中要害。购买这本书,它必将成为图书馆中最常被引用的书籍之一。
以下是Python语言相关的书籍推荐:
:Toby Segaran(通常被称为PCI)
如果想从这个书单中选择一本学习机器学习的书籍——那就是这本。还没有遇到过一个读过这本书的数据科学家不推荐将它放在书架上。他们中的许多人已经多次重读这本书。这本书写于数据科学和机器学习获得今天他们所拥有的崇拜地位之前——但书中的主题和章节至今仍完全相关!书中涵盖的一些主题包括协同过滤技术、搜索引擎特性、贝叶斯过滤和支持向量机。
如果还没有这本书的副本——在读完这篇文章后立即订购吧!
这本书使用Python以一种迷人的方式传授机器学习。
:Wes McKinney
这本书由Wes McKinney撰写,教关于Pandas的一切。对于初学者(不确定为什么还在阅读这篇文章),Pandas是Python处理数据结构的方式。除了书名(觉得误导)之外,喜欢这本书的其他一切。它包含了大量的代码和示例,让能够执行任何操作/转换在Python(使用pandas)的数据帧上。
对于高级用户,如果已经知道pandas,应该看看Wes的这个演示
,了解pandas的不足之处
。
:Andriy Burkov
在阅读了大量试图从各种角度和视角教授机器学习的书籍后,很难找到一本能够简洁总结困难主题和方程式的书籍。直到Andriy Burkov在大约100页内做到了这一点。
它写得很漂亮,易于理解,并得到了像Peter Norvig这样的思想领袖的认可。还需要说更多吗?无论是初学者还是已经建立的,每个数据科学家都应该得到这本书。
:Russell Jurney
这是O'Reilly最近添加的一本书,看起来像是一本数据科学家必读的书。重点是使用“轻量级”工具,这些工具易于使用,同时仍然能够完成工作。这本书目前在阅读清单上,一旦阅读了它,会更新更多的细节。
这些是7本必备书籍,如果真的想成为一名数据科学家。还有一些额外的Python书籍,可以考虑——
《Natural Language Processing withPython》:Steven Bird等人
《Mining the Social Web》:Matthew A. Russell。
没有将它们列入书单的原因是,可以很容易地在这些书籍中找到很多信息在互联网上。