二十、参考表

原文：https://www.textbook.ds100.org/ch/20/ref_intro.html

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))

本附录包含本书中使用的pandas、seaborn、matplotlib和scikit-learn方法的参考表。它的目的是对我们在本书中最常使用的方法的一小部分提供一个有用的概述。

对于每个库，我们列出了使用的方法、首先提到每个方法的章节，以及对方法功能的简要描述。

20.1 Pandas

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))

功能	第章	说明
`pd.DataFrame(data)`	表格数据和 Pandas	从二维数组或字典创建数据帧`data`
`pd.read_csv(filepath)`	Tabular Data and pandas	将 csv 文件从`filepath`导入为 Pandas 数据帧
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】	Tabular Data and pandas	查看数据帧或序列的第一行`n`
【HTG0】【HTG2】【HTG1】	Tabular Data and pandas	查看数据帧的索引和列值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】	探索性数据分析	查看有关数据帧或序列的描述性统计信息
`pd.Series.unique()`	Exploratory Data Analysis	查看序列中的唯一值
`pd.Series.value_counts()`	Exploratory Data Analysis	查看序列中每个唯一值出现的次数
`df[col]`	Tabular Data and pandas	从数据帧`df`返回列`col`作为一个系列
`df[[col]]`	Tabular Data and pandas	从数据帧`df`返回列`col`作为数据帧
`df.loc[row, col]`	Tabular Data and pandas	从 dataframe`df`返回索引名为`row`和列名为`col`的行；`row`也可以是布尔序列
`df.iloc[row, col]`	Tabular Data and pandas	从数据帧`df`返回索引号为`row`和列号为`col`的行；`row`也可以是布尔序列
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】	数据清理	查看数据帧或序列中缺少的值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】	Data Cleaning	用`value`填充数据帧或序列中缺少的值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】	Data Cleaning	从数据帧或序列中删除缺少值的行或列
`pd.DataFrame.drop(labels, axis)`	Data Cleaning	沿`axis`从数据框中删除名为`labels`的行或列
`pd.DataFrame.rename()`	Data Cleaning	重命名数据帧中的指定行或列
`pd.DataFrame.replace(to_replace, value)`	Data Cleaning	在数据帧中用`value`替换`to_replace`值
`pd.DataFrame.reset_index(drop=False)`	Data Cleaning	重置数据帧的索引；默认情况下，将旧索引保留为新列，除非指定了`drop=True`
`pd.DataFrame.sort_values(by, ascending=True)`	Tabular Data and pandas	按指定列`by`对数据帧排序，默认为升序
`pd.DataFrame.groupby(by)`	Tabular Data and pandas	返回 GroupBy 对象，该对象包含按指定列中的值分组的数据帧`by`
`GroupBy.<function>`	Tabular Data and pandas	将函数`<function>`应用于 groupby 对象`GroupBy`中的每个组，例如`mean()`，`count()`
`pd.Series.<function>`	Tabular Data and pandas	将函数`<function>`应用于具有数值的序列；例如`mean()`、`max()`、`median()`
`pd.Series.str.<function>`	Tabular Data and pandas	将函数`<function>`应用于具有字符串值的序列；例如`len()`、`lower()`、`split()`
`pd.Series.dt.<property>`	Tabular Data and pandas	从具有日期时间值的序列中提取属性`<property>`，例如`year`，`month`，`date`
`pd.get_dummies(columns, drop_first=False)`	---	将分类变量`columns`转换为虚拟变量；默认值保留所有变量，除非指定了`drop_first=True`。
`pd.merge(left, right, how, on)`	探索性数据分析；数据库和 SQL	在指定的列`on`上将两个数据帧`left`和`right`合并在一起；连接类型取决于`how`
`pd.read_sql(sql, con)`	数据库和 SQL	读取数据库连接`con`上的 SQL 查询`sql`，并将结果作为 Pandas 数据帧返回

20.2 Seaborn

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))

功能	第章	说明
`sns.lmplot(x, y, data, fit_reg=True)`	数据可视化	从数据帧`data`创建`x`对`y`的散点图，默认情况下覆盖最小二乘回归线
`sns.distplot(a, kde=True)`	Data Visualization	创建`a`的柱状图，默认情况下覆盖一个内核密度估计量
`sns.barplot(x, y, hue=None, data, ci=95)`	Data Visualization	从数据帧`data`创建`x`对`y`的条形图，可以选择基于`hue`对数据进行因子分解，默认情况下绘制 95%的置信区间（可使用`ci=None`关闭）。
`sns.countplot(x, hue=None, data)`	Data Visualization	创建一个从数据框`data`中选择的变量`x`的值计数的条形图，可以选择由分类变量`hue`分解。
`sns.boxplot(x=None, y, data)`	Data Visualization	从数据帧`data`创建`y`的箱线图，也可以通过分类变量`x`进行因子分解。
`sns.kdeplot(x, y=None)`	Data Visualization	如果`y=None`，则创建一个单变量密度图`x`；如果指定了`y`，则创建一个双变量密度图。
`sns.jointplot(x, y, data)`	Data Visualization	将数据帧`data`中`x`与`y`的双变量散射图与轴上覆盖的每个变量的单变量密度图相结合。
`sns.violinplot(x=None, y, data)`	Data Visualization	绘制变量`y`的组合箱线图和核密度估计量，可选择由从数据帧`data`中选择的分类变量`x`分解。

20.3 Matplotlib

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))

绘图类型¶

功能	第章	说明
`plt.scatter(x, y)`	数据可视化	创建变量 x 相对于变量 y 的散点图
`plt.plot(x, y)`	Data Visualization	创建变量 x 相对于变量 y 的线图
`plt.hist(x, bins=None)`	Data Visualization	创建 x 的柱状图。bins 参数可以是整数或序列
`plt.bar(x, height)`	Data Visualization	创建条形图。`x`指定条的 X 坐标，`height`指定条的高度
`plt.axvline(x=0)`	Data Visualization	在指定的 X 值处创建垂直线
`plt.axhline(y=0)`	Data Visualization	在指定的 Y 值处创建水平线

绘图添加¶

Function	Chapter	Description
`%matplotlib inline`	Data Visualization	使打印命令的输出以内联方式显示
`plt.figure(figsize=(3, 5))`	Data Visualization	创建宽度为 3 英寸、高度为 5 英寸的图形
`plt.xlim(xmin, xmax)`	Data Visualization	设置当前轴的 X 极限
`plt.xlabel(label)`	Data Visualization	设置当前轴的 X 轴标签
`plt.title(label)`	Data Visualization	设置当前轴的标题
`plt.legend(x, height)`	Data Visualization	在轴上放置图例
`fig, ax = plt.subplots()`	Data Visualization	创建一个数字和一组子批次
`plt.show()`	Data Visualization	显示一个数字

20.4 Scikit Learn

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))

型号和型号选择

进口	功能	截面	说明
`sklearn.model_selection`	`train_test_split(*arrays, test_size=0.2)`	建模与估计	返回传入的每个数组的两个随机子集，其中第一个子集中有 0.8 个数组，第二个子集中有 0.2 个数组
`sklearn.linear_model`	`LinearRegression()`	Modeling and Estimation	返回普通最小二乘线性回归模型
`sklearn.linear_model`	`LassoCV()`	Modeling and Estimation	返回通过交叉验证选择最佳模型的 Lasso（L1 正则化）线性模型
`sklearn.linear_model`	`RidgeCV()`	Modeling and Estimation	返回一个脊线（L2 正则化）线性模型，并通过交叉验证选择最佳模型
`sklearn.linear_model`	`ElasticNetCV()`	Modeling and Estimation	返回 ElasticNet（l1 和 l2 正则化）线性模型，并通过交叉验证选择最佳模型
`sklearn.linear_model`	`LogisticRegression()`	Modeling and Estimation	返回逻辑回归分类器
`sklearn.linear_model`	`LogisticRegressionCV()`	Modeling and Estimation	返回通过交叉验证选择最佳模型的逻辑回归分类器

使用模型¶

假设您有一个model变量是scikit-learn对象：

Function	Section	Description
`model.fit(X, y)`	Modeling and Estimation	与传入的 X 和 Y 匹配的模型
`model.predict(X)`	Modeling and Estimation	返回根据模型传入的 x 的预测
`model.score(X, y)`	Modeling and Estimation	返回基于 corect 值（y）的 x 预测精度

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

20.md

20.md

二十、参考表

20.1 Pandas

20.2 Seaborn

20.3 Matplotlib

绘图类型¶

绘图添加¶

20.4 Scikit Learn

型号和型号选择

使用模型¶

Files

20.md

Latest commit

History

20.md

File metadata and controls

二十、参考表

20.1 Pandas

20.2 Seaborn

20.3 Matplotlib

绘图类型¶

绘图添加¶

20.4 Scikit Learn

型号和型号选择

使用模型¶