零、前言

"A journey of a thousand miles begins with a single step."**– Laozi (604 BC - 531 BC)

数据科学是一个相对较新的知识领域，需要成功集成线性代数，统计建模，可视化，计算语言学，图形分析，机器学习，商业智能以及数据存储和检索。

在过去的十年中，Python 编程语言征服了科学界，如今它已成为数据科学从业人员必不可少的工具，并且是每个有抱负的数据科学家必备的工具。 Python 将为您提供快速，可靠，跨平台且成熟的环境，用于数据分析，机器学习和算法问题解决。通过我们简单，循序渐进，面向示例的方法，可以轻松克服以前阻止您掌握 Python 用于数据科学应用的一切，这将帮助您将最直接，最有效的 Python 工具应用于示例和现实世界的数据集。

作为《Python 数据科学基础知识》的第三版，这本书提供了更新和扩展的内容。基于最新的 Jupyter 笔记本和 JupyterLab 接口（结合了可互换的内核，一个真正的多语言数据科学系统），本书结合了 NumPy，pandas和 Scikit-learn 的所有最新改进。此外，它以新的 GBM 算法（XGBoost，LightGBM 和 CatBoost），深度学习（通过提供基于 TensorFlow 的 Keras 解决方案），精美的可视化效果（主要是由于 Seaborn）和 Web 部署（使用瓶子）的形式提供了新内容。。

本书首先向您展示了如何使用单源方法在 Python 的最新版本（3.6）中设置基本的数据科学工具箱（这意味着该书的代码也可以在 Python 2.7 上轻松重用）。然后，它将以某种方式指导您跨所有数据处理和预处理阶段，以解释与加载数据，转换和修复数据以进行分析以及探索/处理有关的所有核心数据科学活动。最后，这本书将向您介绍主要的机器学习算法，图形分析技术以及所有可视化和部署工具，从而使向数据科学专家和业务用户的受众展示结果更加容易，从而完成其概述。

这本书是给谁的

如果您是一位有抱负的数据科学家，并且至少具有数据分析和 Python 的工作知识，那么这本书将帮助您开始进行数据科学。具有 R 或 MATLAB/GNU Octave 经验的数据分析还将发现这本书是增强其数据处理和机器学习技能的综合参考。

本书涵盖的内容

第 1 章，“第一步”，介绍了 Jupyter 笔记本，并演示了如何访问教程中运行的数据。

第 2 章，“数据整理”介绍了所有关键的数据操作和转换技术，重点介绍了进行谋杀活动的最佳实践。

第 3 章，“数据管道”讨论了可能改善数据科学项目结果的所有操作，使读者能够进行高级数据操作。

第 4 章，“机器学习”提出了 Scikit-learn 库中可用的最重要的学习算法。将向读者展示实际应用以及需要检查的重要内容以及为从每种学习技术中获得最佳效果而需要调整的参数。

第 5 章，“可视化，见解和结果”为您提供基础和中级的图形表示形式，对于表示和视觉理解复杂的数据结构和从机器学习中获得的结果是必不可少的。

第 6 章，“社交网络分析”为读者提供了处理代表社会关系和互动的数据的实用有效技巧。

第 7 章，“超越基础的深度学习”演示了如何从头开始构建卷积神经网络，介绍了该行业的所有工具以增强您的深度学习模型，并说明了迁移学习以及如何使用循环神经网络对文本进行分类和预测序列的工作。

第 8 章，“用于大数据的 Spark”介绍了一种新的数据处理方式：水平扩展大数据。这意味着运行已安装 Hadoop 和 Spark 框架的计算机集群。

附录和“增强 Python 基础”涵盖了一些 Python 示例和教程，这些示例和教程侧重于在数据科学项目上必不可少的关键语言功能。

充分利用这本书

为了充分利用本书，您将需要以下内容：

熟悉基本的 Python 语法和数据结构（例如，列表和字典）
关于数据分析的一些知识，特别是关于描述统计的知识

您可以在阅读本书时建立这两种技能，尽管本书并没有过多地介绍细节，而是仅提供了数据科学家要想在她身上取得成功所必须知道的大多数技术的基础知识 /他的项目。

您还将需要以下内容：

装有 Windows，macOS 或 Linux 操作系统且至少有 8 GB 内存的计算机（如果您的计算机上只有 4 GB，则无论如何都可以使用大多数示例）
如果您想加快计算速度，可以在计算机上安装 GPU，您可以在第 7 章，“超越基础的深度学习”中找到。
Python 3.6 安装，最好通过 Anaconda。

下载示例代码文件

您可以从这个页面的帐户中下载本书的示例代码文件。如果您在其他地方购买了此书，则可以访问这个页面并注册以将文件直接通过电子邮件发送给您。

您可以按照以下步骤下载代码文件：

登录或注册 www.packt.com 。
选择支持选项卡。
单击代码下载和勘误。
在搜索框中输入书籍的名称，然后按照屏幕上的说明进行操作。

下载文件后，请确保使用以下最新版本解压缩或解压缩文件夹：

Windows 的 WinRAR/7-Zip
Mac 版 Zipeg/iZip/UnRarX
适用于 Linux 的 7-Zip/PeaZip

本书的代码包也托管在这个页面。如果代码有更新，它将在现有的 GitHub 存储库中进行更新。

我们还有丰富的书籍和视频目录中的其他代码包，可通过这个页面获得。去看一下！

下载彩色图像

我们还提供了 PDF 文件，其中包含本书中使用的屏幕截图/图表的彩色图像。您可以在此处下载。

使用约定

本书中使用了许多文本约定。

CodeInText：指示文本中的代码字，数据库表名称，文件夹名称，文件名，文件扩展名，路径名，虚拟 URL，用户输入和 Twitter 句柄。这是一个示例：“将下载的WebStorm-10*.dmg磁盘映像文件安装为系统中的另一个磁盘。”

代码块设置如下：

In: G.add_edge(3,4)
 G.add_edges_from([(2, 3), (4, 1)]) nx.draw_networkx(G) plt.show()

粗体：表示新术语，重要单词或您在屏幕上看到的单词。例如，菜单或对话框中的单词会出现在这样的文本中。这是一个示例：“从管理面板中选择系统信息。”

警告或重要提示如下所示。

提示和技巧如下所示。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

0.md

0.md

零、前言

这本书是给谁的

本书涵盖的内容

充分利用这本书

下载示例代码文件

下载彩色图像

使用约定

Files

0.md

Latest commit

History

0.md

File metadata and controls

零、前言

这本书是给谁的

本书涵盖的内容

充分利用这本书

下载示例代码文件

下载彩色图像

使用约定