Skip to content

Latest commit

 

History

History
152 lines (124 loc) · 13.7 KB

File metadata and controls

152 lines (124 loc) · 13.7 KB

二十、参考表

原文:https://www.textbook.ds100.org/ch/20/ref_intro.html

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))

本附录包含本书中使用的pandasseabornmatplotlibscikit-learn方法的参考表。它的目的是对我们在本书中最常使用的方法的一小部分提供一个有用的概述。

对于每个库,我们列出了使用的方法、首先提到每个方法的章节,以及对方法功能的简要描述。

20.1 Pandas

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
功能 第章 说明
pd.DataFrame(data) 表格数据和 Pandas 从二维数组或字典创建数据帧data
pd.read_csv(filepath) Tabular Data and pandas 将 csv 文件从filepath导入为 Pandas 数据帧
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 Tabular Data and pandas 查看数据帧或序列的第一行n
【HTG0】【HTG2】【HTG1】 Tabular Data and pandas 查看数据帧的索引和列值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 探索性数据分析 查看有关数据帧或序列的描述性统计信息
pd.Series.unique() Exploratory Data Analysis 查看序列中的唯一值
pd.Series.value_counts() Exploratory Data Analysis 查看序列中每个唯一值出现的次数
df[col] Tabular Data and pandas 从数据帧df返回列col作为一个系列
df[[col]] Tabular Data and pandas 从数据帧df返回列col作为数据帧
df.loc[row, col] Tabular Data and pandas 从 dataframedf返回索引名为row和列名为col的行;row也可以是布尔序列
df.iloc[row, col] Tabular Data and pandas 从数据帧df返回索引号为row和列号为col的行;row也可以是布尔序列
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 数据清理 查看数据帧或序列中缺少的值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 Data Cleaning value填充数据帧或序列中缺少的值
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 Data Cleaning 从数据帧或序列中删除缺少值的行或列
pd.DataFrame.drop(labels, axis) Data Cleaning 沿axis从数据框中删除名为labels的行或列
pd.DataFrame.rename() Data Cleaning 重命名数据帧中的指定行或列
pd.DataFrame.replace(to_replace, value) Data Cleaning 在数据帧中用value替换to_replace
pd.DataFrame.reset_index(drop=False) Data Cleaning 重置数据帧的索引;默认情况下,将旧索引保留为新列,除非指定了drop=True
pd.DataFrame.sort_values(by, ascending=True) Tabular Data and pandas 按指定列by对数据帧排序,默认为升序
pd.DataFrame.groupby(by) Tabular Data and pandas 返回 GroupBy 对象,该对象包含按指定列中的值分组的数据帧by
GroupBy.<function> Tabular Data and pandas 将函数<function>应用于 groupby 对象GroupBy中的每个组,例如mean()count()
pd.Series.<function> Tabular Data and pandas 将函数<function>应用于具有数值的序列;例如mean()max()median()
pd.Series.str.<function> Tabular Data and pandas 将函数<function>应用于具有字符串值的序列;例如len()lower()split()
pd.Series.dt.<property> Tabular Data and pandas 从具有日期时间值的序列中提取属性<property>,例如yearmonthdate
pd.get_dummies(columns, drop_first=False) --- 将分类变量columns转换为虚拟变量;默认值保留所有变量,除非指定了drop_first=True
pd.merge(left, right, how, on) 探索性数据分析;数据库和 SQL 在指定的列on上将两个数据帧leftright合并在一起;连接类型取决于how
pd.read_sql(sql, con) 数据库和 SQL 读取数据库连接con上的 SQL 查询sql,并将结果作为 Pandas 数据帧返回

20.2 Seaborn

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
功能 第章 说明
sns.lmplot(x, y, data, fit_reg=True) 数据可视化 从数据帧data创建xy的散点图,默认情况下覆盖最小二乘回归线
sns.distplot(a, kde=True) Data Visualization 创建a的柱状图,默认情况下覆盖一个内核密度估计量
sns.barplot(x, y, hue=None, data, ci=95) Data Visualization 从数据帧data创建xy的条形图,可以选择基于hue对数据进行因子分解,默认情况下绘制 95%的置信区间(可使用ci=None关闭)。
sns.countplot(x, hue=None, data) Data Visualization 创建一个从数据框data中选择的变量x的值计数的条形图,可以选择由分类变量hue分解。
sns.boxplot(x=None, y, data) Data Visualization 从数据帧data创建y的箱线图,也可以通过分类变量x进行因子分解。
sns.kdeplot(x, y=None) Data Visualization 如果y=None,则创建一个单变量密度图x;如果指定了y,则创建一个双变量密度图。
sns.jointplot(x, y, data) Data Visualization 将数据帧dataxy的双变量散射图与轴上覆盖的每个变量的单变量密度图相结合。
sns.violinplot(x=None, y, data) Data Visualization 绘制变量y的组合箱线图和核密度估计量,可选择由从数据帧data中选择的分类变量x分解。

20.3 Matplotlib

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))

绘图类型

功能 第章 说明
plt.scatter(x, y) 数据可视化 创建变量 x 相对于变量 y 的散点图
plt.plot(x, y) Data Visualization 创建变量 x 相对于变量 y 的线图
plt.hist(x, bins=None) Data Visualization 创建 x 的柱状图。bins 参数可以是整数或序列
plt.bar(x, height) Data Visualization 创建条形图。x指定条的 X 坐标,height指定条的高度
plt.axvline(x=0) Data Visualization 在指定的 X 值处创建垂直线
plt.axhline(y=0) Data Visualization 在指定的 Y 值处创建水平线

绘图添加

Function Chapter Description
%matplotlib inline Data Visualization 使打印命令的输出以内联方式显示
plt.figure(figsize=(3, 5)) Data Visualization 创建宽度为 3 英寸、高度为 5 英寸的图形
plt.xlim(xmin, xmax) Data Visualization 设置当前轴的 X 极限
plt.xlabel(label) Data Visualization 设置当前轴的 X 轴标签
plt.title(label) Data Visualization 设置当前轴的标题
plt.legend(x, height) Data Visualization 在轴上放置图例
fig, ax = plt.subplots() Data Visualization 创建一个数字和一组子批次
plt.show() Data Visualization 显示一个数字

20.4 Scikit Learn

# HIDDEN
# Clear previously defined variables
%reset -f

# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))

型号和型号选择

进口 功能 截面 说明
sklearn.model_selection train_test_split(*arrays, test_size=0.2) 建模与估计 返回传入的每个数组的两个随机子集,其中第一个子集中有 0.8 个数组,第二个子集中有 0.2 个数组
sklearn.linear_model LinearRegression() Modeling and Estimation 返回普通最小二乘线性回归模型
sklearn.linear_model LassoCV() Modeling and Estimation 返回通过交叉验证选择最佳模型的 Lasso(L1 正则化)线性模型
sklearn.linear_model RidgeCV() Modeling and Estimation 返回一个脊线(L2 正则化)线性模型,并通过交叉验证选择最佳模型
sklearn.linear_model ElasticNetCV() Modeling and Estimation 返回 ElasticNet(l1 和 l2 正则化)线性模型,并通过交叉验证选择最佳模型
sklearn.linear_model LogisticRegression() Modeling and Estimation 返回逻辑回归分类器
sklearn.linear_model LogisticRegressionCV() Modeling and Estimation 返回通过交叉验证选择最佳模型的逻辑回归分类器

使用模型

假设您有一个model变量是scikit-learn对象:

Function Section Description
model.fit(X, y) Modeling and Estimation 与传入的 X 和 Y 匹配的模型
model.predict(X) Modeling and Estimation 返回根据模型传入的 x 的预测
model.score(X, y) Modeling and Estimation 返回基于 corect 值(y)的 x 预测精度