原文:https://www.textbook.ds100.org/ch/20/ref_intro.html
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
本附录包含本书中使用的pandas
、seaborn
、matplotlib
和scikit-learn
方法的参考表。它的目的是对我们在本书中最常使用的方法的一小部分提供一个有用的概述。
对于每个库,我们列出了使用的方法、首先提到每个方法的章节,以及对方法功能的简要描述。
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
功能 |
第章 |
说明 |
pd.DataFrame(data) |
表格数据和 Pandas |
从二维数组或字典创建数据帧data |
pd.read_csv(filepath) |
Tabular Data and pandas |
将 csv 文件从filepath 导入为 Pandas 数据帧 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 |
Tabular Data and pandas |
查看数据帧或序列的第一行n |
【HTG0】【HTG2】【HTG1】 |
Tabular Data and pandas |
查看数据帧的索引和列值 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 |
探索性数据分析 |
查看有关数据帧或序列的描述性统计信息 |
pd.Series.unique() |
Exploratory Data Analysis |
查看序列中的唯一值 |
pd.Series.value_counts() |
Exploratory Data Analysis |
查看序列中每个唯一值出现的次数 |
df[col] |
Tabular Data and pandas |
从数据帧df 返回列col 作为一个系列 |
df[[col]] |
Tabular Data and pandas |
从数据帧df 返回列col 作为数据帧 |
df.loc[row, col] |
Tabular Data and pandas |
从 dataframedf 返回索引名为row 和列名为col 的行;row 也可以是布尔序列 |
df.iloc[row, col] |
Tabular Data and pandas |
从数据帧df 返回索引号为row 和列号为col 的行;row 也可以是布尔序列 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 |
数据清理 |
查看数据帧或序列中缺少的值 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 |
Data Cleaning |
用value 填充数据帧或序列中缺少的值 |
【HTG2】【HTG0】【HTG3】【HTG4】【HTG5】【HTG1】【HTG6】 |
Data Cleaning |
从数据帧或序列中删除缺少值的行或列 |
pd.DataFrame.drop(labels, axis) |
Data Cleaning |
沿axis 从数据框中删除名为labels 的行或列 |
pd.DataFrame.rename() |
Data Cleaning |
重命名数据帧中的指定行或列 |
pd.DataFrame.replace(to_replace, value) |
Data Cleaning |
在数据帧中用value 替换to_replace 值 |
pd.DataFrame.reset_index(drop=False) |
Data Cleaning |
重置数据帧的索引;默认情况下,将旧索引保留为新列,除非指定了drop=True |
pd.DataFrame.sort_values(by, ascending=True) |
Tabular Data and pandas |
按指定列by 对数据帧排序,默认为升序 |
pd.DataFrame.groupby(by) |
Tabular Data and pandas |
返回 GroupBy 对象,该对象包含按指定列中的值分组的数据帧by |
GroupBy.<function> |
Tabular Data and pandas |
将函数<function> 应用于 groupby 对象GroupBy 中的每个组,例如mean() ,count() |
pd.Series.<function> |
Tabular Data and pandas |
将函数<function> 应用于具有数值的序列;例如mean() 、max() 、median() |
pd.Series.str.<function> |
Tabular Data and pandas |
将函数<function> 应用于具有字符串值的序列;例如len() 、lower() 、split() |
pd.Series.dt.<property> |
Tabular Data and pandas |
从具有日期时间值的序列中提取属性<property> ,例如year ,month ,date |
pd.get_dummies(columns, drop_first=False) |
--- |
将分类变量columns 转换为虚拟变量;默认值保留所有变量,除非指定了drop_first=True 。 |
pd.merge(left, right, how, on) |
探索性数据分析;数据库和 SQL |
在指定的列on 上将两个数据帧left 和right 合并在一起;连接类型取决于how |
pd.read_sql(sql, con) |
数据库和 SQL |
读取数据库连接con 上的 SQL 查询sql ,并将结果作为 Pandas 数据帧返回 |
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
功能 |
第章 |
说明 |
sns.lmplot(x, y, data, fit_reg=True) |
数据可视化 |
从数据帧data 创建x 对y 的散点图,默认情况下覆盖最小二乘回归线 |
sns.distplot(a, kde=True) |
Data Visualization |
创建a 的柱状图,默认情况下覆盖一个内核密度估计量 |
sns.barplot(x, y, hue=None, data, ci=95) |
Data Visualization |
从数据帧data 创建x 对y 的条形图,可以选择基于hue 对数据进行因子分解,默认情况下绘制 95%的置信区间(可使用ci=None 关闭)。 |
sns.countplot(x, hue=None, data) |
Data Visualization |
创建一个从数据框data 中选择的变量x 的值计数的条形图,可以选择由分类变量hue 分解。 |
sns.boxplot(x=None, y, data) |
Data Visualization |
从数据帧data 创建y 的箱线图,也可以通过分类变量x 进行因子分解。 |
sns.kdeplot(x, y=None) |
Data Visualization |
如果y=None ,则创建一个单变量密度图x ;如果指定了y ,则创建一个双变量密度图。 |
sns.jointplot(x, y, data) |
Data Visualization |
将数据帧data 中x 与y 的双变量散射图与轴上覆盖的每个变量的单变量密度图相结合。 |
sns.violinplot(x=None, y, data) |
Data Visualization |
绘制变量y 的组合箱线图和核密度估计量,可选择由从数据帧data 中选择的分类变量x 分解。 |
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
# HIDDEN
# Clear previously defined variables
%reset -f
# Set directory for data loading to work properly
import os
os.chdir(os.path.expanduser('~/notebooks/20'))
进口 |
功能 |
截面 |
说明 |
sklearn.model_selection |
train_test_split(*arrays, test_size=0.2) |
建模与估计 |
返回传入的每个数组的两个随机子集,其中第一个子集中有 0.8 个数组,第二个子集中有 0.2 个数组 |
sklearn.linear_model |
LinearRegression() |
Modeling and Estimation |
返回普通最小二乘线性回归模型 |
sklearn.linear_model |
LassoCV() |
Modeling and Estimation |
返回通过交叉验证选择最佳模型的 Lasso(L1 正则化)线性模型 |
sklearn.linear_model |
RidgeCV() |
Modeling and Estimation |
返回一个脊线(L2 正则化)线性模型,并通过交叉验证选择最佳模型 |
sklearn.linear_model |
ElasticNetCV() |
Modeling and Estimation |
返回 ElasticNet(l1 和 l2 正则化)线性模型,并通过交叉验证选择最佳模型 |
sklearn.linear_model |
LogisticRegression() |
Modeling and Estimation |
返回逻辑回归分类器 |
sklearn.linear_model |
LogisticRegressionCV() |
Modeling and Estimation |
返回通过交叉验证选择最佳模型的逻辑回归分类器 |
假设您有一个model
变量是scikit-learn
对象:
Function |
Section |
Description |
model.fit(X, y) |
Modeling and Estimation |
与传入的 X 和 Y 匹配的模型 |
model.predict(X) |
Modeling and Estimation |
返回根据模型传入的 x 的预测 |
model.score(X, y) |
Modeling and Estimation |
返回基于 corect 值(y)的 x 预测精度 |