受到HuggingLLM项目的启发,本项将介绍以stable-diffusion为代表的视觉生成大模型的原理、使用和应用,降低使用门槛,让更多感兴趣的同学能够无障碍使用SD创造价值。
以stable-diffusion为代表的视觉生成大模型正在深刻改变视觉领域中的上下游任务(包括二维、三维、视频)。且正在改变许多行业,比如绘画、3D建模、影视、游戏等等。我们将借助该项目让更多人了解并使用视觉生成大模型,尤其是对此感兴趣、想利用相关技术做一些新产品或应用的朋友。希望新的技术能够促进行业更快更好发展,提高人们工作效率和生活质量。AI for humans!
项目适合以下人员:
- 学生。希望通过学习相关技术,了解视觉生成模型的原理和应用,或是开发新应用,或是入门视觉生成式大模型,或是做相关算法究等。
- 相关或非相关行业从业者。对stable-diffusion或视觉生成大模型感兴趣,希望在实际中运用该技术创造提供新的服务或解决已有问题。
项目不适合以下人员:
- 研究底层算法细节,过于
- 对其他技术细节感兴趣。
- 深入学习视觉生成模型的原理和应用,包括二维、三维、视频等。
- 熟悉stable-diffusion原理及相关API的使用和理解。
- 提供示例代码和使用流程。
1.Stable Diffusion原理
- 1.1 总述
- 视觉生成模型历史
- 主流模型
- SD1.5
- SDXL
- Flux
- 1.2 视觉生成原理(上)
- 变分自编码器
- 生成对抗网络
- 1.3 视觉生成原理(下)
- 流式模型
- 扩散模型
- 训练过程
- 采样过程
- 优化方法
- 1.4 SDXL1.0与应用
- 1.5 社区生态
2.图像生成方法
- 2.1 提示词
- 2.3 UI生成工具
- 2.3.1 使用 WebUI / Forge[wip]
- 2.3.2 使用 ComfyUI[wip]
- 构建pipeline的理念[wip]
- 2.4 可控生成
- 2.4.1 图生图
- 2.4.2 ControlNet
- IPAdapter[wip]
- ICLight[wip]
3.微调模型训练
- 3.1 模型微调原理
- 3.1.1 文本反推 textual-inversion
- 3.1.2 参数微调 dreambooth
- 3.1.3 低秩矩阵 LoRA
4.图片编辑
- 4.1 图片反推 DDIM-Inversion
- 4.2 注意力机制
- 交叉注意力
- 自注意力
- 4.3 基于模型的图片编辑
5.三维生成与编辑
6.视频生成与编辑
- 6.1 背景及应用
- 6.2 文生视频原理
- 6.3 视频风格迁移
- 7.1 社区生态
- 7.2 行业应用
- 二维场景:营销作图、游戏作画、美图工具等
- 三维场景:游戏、数字人、电影、虚拟资产、vision pro内容等
- 视频场景:抖音、b站、直播等
Xiaojie Li 清华大学硕士 |
Letian Zhang 清华大学硕士 |
joye Data Scientist |
Bote Huang 西安电子科技大学本科 |
特别感谢Sm1les对本项目的帮助与支持。 感谢Tango对文生图部分提供的帮助;感谢AnSuZeaT对视频生成部分提供的帮助; 感谢Fantastic121380对视觉生成算法部分提供的帮助; 同时也感谢flawzhang、mxztflow、QJieWang对本项目提供的帮助和支持。
Datawhale,一个专注于AI领域的学习圈子。初衷是for the learner,和学习者一起成长。目前加入学习社群的人数已经数千人,组织了机器学习,深度学习,数据分析,数据挖掘,爬虫,编程,统计学,Mysql,数据竞赛等多个领域的内容学习,微信搜索公众号Datawhale可以加入我们。
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。