第23期 Datawhale 组队学习活动马上就要开始啦!
本次组队学习的内容为:
- 编程实践(区块链)
- 集成学习(上)
- 深度推荐模型
- 零基础入门数据挖掘(心跳信号分类)
大家可以根据我们的开源内容进行自学,也可以加入我们的组队学习一起来学。
开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/Blockchain
- 贡献人员:陈锴、孙子涵、李岳昆、易远哲
- 学习周期:12天
- 学习形式:根据教程主线进行学习
- 人群定位:具有至少一门编程语言基础,在开展组队学习之前能够熟悉 Linux 基本操作
- 难度系数:较难
- 组队、修改群昵称
- 熟悉打卡规则
- 对Linux不太熟悉的学习者先安装Linux环境(可以是虚拟机或子系统)并掌握基本命令,其他内容可以暂不了解
- 学习者学习区块链基础与以太坊入门介绍,该部分以了解为主
- 学习者可以根据教程提供的各个方面内容,对某一部分深入了解并进行打卡
- 学习者学习Solidity在线编辑器Remix的使用以及Solidity的基础操作,该部分需要深入掌握,学习者可以根据参考链接提供的资料进一步学习
- 打卡内容为Task02最后的Solidity练习题部分,其他内容不作硬性要求
- 学习者学习以太坊客户端的使用以及Geth控制台部署智能合约
- 打卡内容为学习者完成一个自己编写的合约的部署,并测试函数调用等
- 学习者学习编写几个Remix官网自带的合约,并回顾 Task01的教程内容重新梳理知识点
- 打卡内容为学习者自己的学习感悟,内容不限
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning
- 贡献人员:李祖贤、薛传雨、赵可、杨毅远、陈琰钰
- 学习周期:14天
- 学习形式:理论学习 + 练习
- 人群定位:具备《高等数学》、《线性代数》、《概率论与数理统计》基础,会使用常见的数据分析工具(Numpy,Pandas、matplotlib),既想系统学习sklearn工具库解决机器学习问题,又想系统学习机器学习算法理论的数学推导的学习者。
- 难度系数:中
本次课程是由Datawhale集成学习小组内部成员共同完成,是针对机器学习小白的一入门课程。学习本课程需要学习者具备《高等数学》、《线性代数》、《概率论与数理统计》基础,会使用常见的数据分析工具(Numpy,Pandas、matplotlib)。
本次课程内容的设计参考了B站很火的《白板推导》系列、李航老师的《统计学习方法》、机器学习入门圣经的《统计学习导论》以及大量的技术博客,详细地介绍了机器学习领域中最经典的算法并给出了相应的数学推导和代码,对于每个算法都进行了细致的分析以及必要的代码的演示,便于学习者深刻理解机器学习算法的本质。除此之外,每个算法都要求学习者自行查阅sklearn官方文档的相应参数,帮助学习者构建理论与实际相结合的学习框架。在这些案例的代码中,我们给出了详细的代码注释,尽量让学习者们不会因为看不懂代码而感到烦恼。
- 组队、修改群昵称
- 熟悉打卡规则
- 了解传统机器学习领域的三大基本任务——回归、分类、无监督学习。
- 掌握基本回归问题中的线性回归以及如何打破线性回归的假设推广至非线性回归,包括多项式回归、广义可加模型、回归树以及支持向量回归,在掌握了这些理论的基础上了解如何使用python及其工具库实现这些算法。
- 在前面的基本回归模型的建模中,我们一直使用最小化训练误差原则,但实际的问题是我们想要最小化未知数据的误差,因此如何权衡训练误差和未知的测试数据误差就是一个急需解决的问题,掌握偏差与方差理论有利于提高模型预测未知数据的能力。偏差与方差的权衡是机器学习基本模型推广至集成学习的关键,也是机器学习面试中必问的一个问题。
- 数据科学永恒不变的主题也许就是调参吧,正确的调参姿势也是建立在正确评估模型的基础上的。因此我们要从偏差与方差理论中得到启发,从数学理论和代码上掌握回归模型的评估及超参数调优。
- 也许大家并不清楚,分类问题也是从回归问题推广而来的,也正是打破线性回归的基本假设而延伸出多种多样的分类模型。我们需要掌握分类问题中的逻辑回归、基于概率的分类模型(线性判别分析、朴素贝叶斯)、分类决策树、支持向量机以及核函数。
- 我们需要像回归问题那样,对分类问题进行正确的评估以及超参数的选择,由于前面回归问题的理论支撑,分类问题的模型评估及超参数选择应该会得心应手!
开源内容:https://github.com/datawhalechina/team-learning-rs/tree/master/DeepRecommendationModel
- 贡献人员:罗如意、吴忠强、田雨,宁彦吉, 何世福、徐何军、赖敏材、刘纪川
- 学习周期:13天
- 学习形式:理论+实践;完成学习打卡
- 人群定位:了解机器学习基础, 了解推荐系统基础(参加过以往的推荐系统组队学习),了解TF2 keras的基本用法
- 难度系数:中等
熟悉经典深度学习模型的原理及代码实现(考虑到内容太多,这里选择了部分模型进行组队学习)。
Tensorflow2.x
所有代码在colab上以默认配置跑没有问题。如果自己电脑可以装tf2.x,也可以在自己的电脑上完成代码实战
- 组队、修改群昵称
- 熟悉打卡规则
- 完成模型理论学习及代码实现
- 完成思考题
- 完成模型理论学习及代码实现
- 完成思考题
- 完成模型理论学习及代码实现
- 完成思考题
- 完成模型理论学习及代码实现
- 完成思考题
- 完成模型理论学习及代码实现
- 完成思考题
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassification
- 贡献人员:鱼佬、牧小熊、吉米杜、张晋、王皓月、姚昱君
- 学习周期:14天,每天平均花费时间2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
- 学习形式:理论+实践
- 人群定位:熟悉数据挖掘的基本方法,对学习时间序列相关问题和医学大数据有需求的学员。
- 对应比赛:https://tianchi.aliyun.com/competition/entrance/531883/introduction
- 先修内容:
- 组队、修改群昵称
- 熟悉打卡规则
- 理解赛题数据和目标,清楚评分体系。
- 完成赛题报名和数据下载,理解赛题的解题思路。
- 学习baseline方案,并成功运行提交结果。
- EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
- 当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
- 引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。
- 完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。
- 对于特征进行进一步分析,并对于数据进行处理。
- 完成对于特征工程的分析,并对于数据进行一些图表或者文字总结并打卡。
- 了解常用的机器学习模型,并掌握机器学习模型的建模与调参流程。
- 完成相应学习打卡任务。
- 对于多种调参完成的模型进行模型融合。
- 完成对于多种模型的融合,提交融合结果并打卡。
- 注册 CSDN、Github 或 B站等账户。
- 按照任务安排进行学习,完成后写学习笔记Blog 或 进行视频直播。
- 在每次任务截止之前在群内填写问卷打卡,遇到问题在群内讨论。
- 未按时打卡的同学视为自动放弃,被抱出学习群。
有关Datawhale组队学习的开源内容如下:
本次组队学习的 PDF 文档可到Datawhale的知识星球下载: