forked from chenzomi12/AISystem
-
Notifications
You must be signed in to change notification settings - Fork 0
/
06.srt
1780 lines (1335 loc) · 29.3 KB
/
06.srt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
1
00:00:00,000 --> 00:00:04,070
字幕生成: BLACK 字幕校对: 杨绎
2
00:00:05,220 --> 00:00:07,400
哈喽大家好,我是ZOMI
3
00:00:07,400 --> 00:00:13,000
今天我给大家去讲讲PyTorch里面一个不算太新,但是也不算太旧
4
00:00:13,000 --> 00:00:17,400
可是这个特性非常重要的就是Dispatch的机制
5
00:00:17,400 --> 00:00:19,100
那为什么会讲这个机制呢?
6
00:00:19,100 --> 00:00:22,600
是因为在讲到PyTorch 2.0新特性的时候
7
00:00:22,600 --> 00:00:24,600
会有一个AoT Off-Gate
8
00:00:24,600 --> 00:00:27,500
那AoT就是Ahead-of-Time Auto-Gate
9
00:00:27,500 --> 00:00:29,300
就自动为分这个功能
10
00:00:29,300 --> 00:00:31,300
而这个功能的具体实现呢
11
00:00:31,300 --> 00:00:33,100
在上一节分享里面呢
12
00:00:33,100 --> 00:00:36,200
其实给大家已经安利过
13
00:00:36,200 --> 00:00:36,700
只是呢
14
00:00:36,700 --> 00:00:40,300
它会严重的去依赖于Torch Dispatch这个机制
15
00:00:40,300 --> 00:00:43,200
所以今天来看看Torch Dispatch机制的原理
16
00:00:44,500 --> 00:00:47,800
那在正式进入到Torch Dispatch机制这个原理呢
17
00:00:47,800 --> 00:00:49,700
会分开几个内容去介绍
18
00:00:49,700 --> 00:00:51,900
首先什么是Dispatch
19
00:00:51,900 --> 00:00:53,800
Dispatch到底有什么不同
20
00:00:53,800 --> 00:00:54,400
那接着呢
21
00:00:54,400 --> 00:00:57,000
去看看为什么需要Dispatch
22
00:00:57,000 --> 00:00:58,100
Dispatch的中文呢
23
00:00:58,100 --> 00:00:59,300
等一下会讲
24
00:00:59,300 --> 00:01:01,400
那为什么需要Dispatch之后呢
25
00:01:01,400 --> 00:01:04,800
就会真正的去了解到了Dispatch的注册
26
00:01:04,800 --> 00:01:07,000
和分发的一个具体的内容
27
00:01:07,000 --> 00:01:08,700
或者它的一个Concept
28
00:01:08,700 --> 00:01:09,600
有了这个之后呢
29
00:01:09,600 --> 00:01:14,800
去看看PyTorch Dispatch里面的一个Key的表示和计算
30
00:01:14,800 --> 00:01:18,200
最后的去了解一下PyTorch Dispatch Table
31
00:01:18,200 --> 00:01:21,400
怎么去对一些新的算子进行注册
32
00:01:21,400 --> 00:01:23,800
或者新的功能进行注册的
33
00:01:23,800 --> 00:01:26,000
了解完PyTorch Dispatch机制之后呢
34
00:01:26,000 --> 00:01:29,300
就回头去看看Torch AOT Auto grad
35
00:01:29,300 --> 00:01:31,800
这个特性的具体的实现原理的时候呢
36
00:01:31,800 --> 00:01:34,600
可能就会有一个更加清晰的了解了
37
00:01:36,100 --> 00:01:39,100
现在来了解一下什么是Dispatch
38
00:01:39,100 --> 00:01:40,400
那Dispatch的中文呢
39
00:01:40,400 --> 00:01:42,300
主要是派遣分发的意思
40
00:01:42,300 --> 00:01:45,900
简单的去把它当做分发的机制就好了
41
00:01:47,000 --> 00:01:47,500
假设呢
42
00:01:47,500 --> 00:01:48,900
现在有一个团队
43
00:01:48,900 --> 00:01:49,500
这个团队呢
44
00:01:49,500 --> 00:01:50,700
有四个人去组成
45
00:01:50,700 --> 00:01:52,300
一个是PM
46
00:01:52,300 --> 00:01:55,700
另外的话是三个很惨的程序员
47
00:01:55,700 --> 00:01:56,400
那这个时候呢
48
00:01:56,400 --> 00:01:57,600
甲方的爸爸
49
00:01:57,600 --> 00:01:59,400
不断的去给这个项目
50
00:01:59,400 --> 00:02:02,100
这四个人组成的项目提需求
51
00:02:02,100 --> 00:02:03,500
对这个甲方呢
52
00:02:03,500 --> 00:02:04,600
叫做Crazy甲方
53
00:02:04,600 --> 00:02:07,400
针对Crazy甲方给这个项目团队
54
00:02:07,400 --> 00:02:09,500
提出各种各样的需求
55
00:02:09,500 --> 00:02:10,400
这个时候呢
56
00:02:10,400 --> 00:02:13,400
项目经理就会根据Crazy甲方的需求
57
00:02:13,400 --> 00:02:14,400
进行拆分
58
00:02:14,400 --> 00:02:17,200
匹配到每个程序员适合
59
00:02:17,200 --> 00:02:19,000
擅长他们做的事情
60
00:02:19,000 --> 00:02:20,200
那这个项目经理呢
61
00:02:20,200 --> 00:02:21,600
叫做Dispatch
62
00:02:21,600 --> 00:02:25,600
他所做的工作就是一个简单的工作的分发
63
00:02:26,600 --> 00:02:28,000
那通过这个概念呢
64
00:02:28,000 --> 00:02:29,500
简单的去了解了
65
00:02:29,500 --> 00:02:31,100
什么是Dispatch
66
00:02:31,100 --> 00:02:31,800
那接着呢
67
00:02:31,800 --> 00:02:34,800
去看看为什么需要Dispatch
68
00:02:36,800 --> 00:02:38,600
从刚才的一个例子来看呢
69
00:02:38,600 --> 00:02:39,500
其实Dispatch呢
70
00:02:39,500 --> 00:02:41,400
更多的是一个if-else的工作
71
00:02:41,400 --> 00:02:42,800
如果你适合干这个活
72
00:02:42,800 --> 00:02:44,400
那我就把这个活分给你
73
00:02:44,400 --> 00:02:47,500
就是如果没有一个很好的Dispatch分发器的话
74
00:02:47,500 --> 00:02:49,600
会写很多if-else的代码
75
00:02:49,600 --> 00:02:51,600
如果input的contest等于GPU
76
00:02:51,600 --> 00:02:53,500
如果input的cast等于CPU
77
00:02:53,500 --> 00:02:55,100
或者等于不同的硬件的时候
78
00:02:55,100 --> 00:02:56,400
就会怎么做
79
00:02:56,400 --> 00:02:57,200
那这个时候呢
80
00:02:57,200 --> 00:02:57,900
没有Dispatch
81
00:02:57,900 --> 00:03:00,100
会写大量的if-else
82
00:03:00,100 --> 00:03:00,900
而Dispatch呢
83
00:03:00,900 --> 00:03:04,400
可以很好的帮去管理一些分发的工作
84
00:03:04,400 --> 00:03:05,500
那可以看一下
85
00:03:05,500 --> 00:03:07,000
其实关于上下文
86
00:03:07,000 --> 00:03:09,500
或者关于整个AI编辑器里面呢
87
00:03:09,500 --> 00:03:10,300
关于Tensor
88
00:03:10,300 --> 00:03:13,600
就有非常多不同的内容
89
00:03:13,600 --> 00:03:14,200
那第一个呢
90
00:03:14,200 --> 00:03:15,200
就是Devices
91
00:03:15,200 --> 00:03:16,800
针对一个具体的算子
92
00:03:16,800 --> 00:03:19,500
或者针对一个具体的Tensor的操作
93
00:03:19,500 --> 00:03:21,900
有非常多不同的设备
94
00:03:22,000 --> 00:03:23,500
有CPU、GPU、NPU、TPU
95
00:03:23,500 --> 00:03:26,400
还有FPGA等不同的硬件
96
00:03:26,400 --> 00:03:27,100
那这个时候呢
97
00:03:27,100 --> 00:03:29,300
我需要根据上下文去决定
98
00:03:29,300 --> 00:03:31,600
我这个算子跑在哪个硬件上面
99
00:03:31,600 --> 00:03:32,200
这里面呢
100
00:03:32,200 --> 00:03:34,100
就有了一个分发的机制
101
00:03:34,100 --> 00:03:35,700
分发的工作
102
00:03:35,700 --> 00:03:38,500
如果没有了这个Dispatch的分发的机制之后呢
103
00:03:38,500 --> 00:03:41,100
会写大量的代码去解决这些问题
104
00:03:41,100 --> 00:03:41,700
那代码呢
105
00:03:41,700 --> 00:03:43,300
就会非常的冗余
106
00:03:43,300 --> 00:03:45,600
而且维护起来也非常困难
107
00:03:45,600 --> 00:03:46,700
针对Tensor
108
00:03:46,700 --> 00:03:48,400
还有非常多的内容
109
00:03:48,400 --> 00:03:50,100
就Tensor它有很多的layout
110
00:03:50,100 --> 00:03:52,300
有很多不同的形式和结构
111
00:03:52,300 --> 00:03:53,900
那可以有普通的张量
112
00:03:53,900 --> 00:03:55,100
有稀疏的张量
113
00:03:55,100 --> 00:03:56,600
而且不同的张量
114
00:03:56,600 --> 00:03:57,700
有不同的布局
115
00:03:57,700 --> 00:04:00,700
有NHWC、有NCHW
116
00:04:00,700 --> 00:04:01,300
另外的话
117
00:04:01,300 --> 00:04:02,900
举第三个例子
118
00:04:02,900 --> 00:04:04,700
就是Data Type
119
00:04:04,700 --> 00:04:06,800
张量的数据类型
120
00:04:06,800 --> 00:04:08,500
平时在Tabularly上面
121
00:04:08,500 --> 00:04:10,700
去用的一些数据类型
122
00:04:10,700 --> 00:04:11,600
已经比较固定了
123
00:04:11,600 --> 00:04:13,400
有普通的Float、Long Float
124
00:04:13,400 --> 00:04:14,300
还有Short Float
125
00:04:14,300 --> 00:04:15,300
还有Longed In
126
00:04:15,300 --> 00:04:16,400
还有Shorted In
127
00:04:16,400 --> 00:04:18,000
很多不同的类型
128
00:04:18,100 --> 00:04:20,000
而AI深度学习诞生之后
129
00:04:20,000 --> 00:04:21,700
会出现的更多的
130
00:04:21,700 --> 00:04:23,000
不同的数据类型
131
00:04:23,000 --> 00:04:24,900
有BF16、HF32
132
00:04:24,900 --> 00:04:26,900
跟不同的类型
133
00:04:26,900 --> 00:04:28,500
如果我要去写大量的
134
00:04:28,500 --> 00:04:29,800
If Else的内容
135
00:04:29,800 --> 00:04:31,300
或者Switch Case的内容
136
00:04:31,300 --> 00:04:33,000
就会写非常大量
137
00:04:33,000 --> 00:04:34,500
冗余的代码
138
00:04:34,500 --> 00:04:35,800
那这个时候
139
00:04:35,800 --> 00:04:38,400
就确实需要一个Dispatcher
140
00:04:38,400 --> 00:04:40,900
让它统一帮去调度
141
00:04:40,900 --> 00:04:42,600
管理分配的工作
142
00:04:44,400 --> 00:04:45,800
在Pytorch里面
143
00:04:45,900 --> 00:04:47,300
主要是采用一个
144
00:04:47,300 --> 00:04:49,000
比较常见的架构
145
00:04:49,000 --> 00:04:51,600
那会做一个注册和分发
146
00:04:51,600 --> 00:04:53,300
但是对于这些
147
00:04:53,300 --> 00:04:55,200
苦逼的程序员来说
148
00:04:55,200 --> 00:04:56,700
就需要考虑到
149
00:04:56,700 --> 00:04:58,200
具体的设计模式
150
00:04:58,200 --> 00:04:59,700
用哪一种方式
151
00:04:59,700 --> 00:05:01,800
那实际上注册分发这种机制
152
00:05:01,800 --> 00:05:03,300
在设计模式里面
153
00:05:03,300 --> 00:05:05,500
会使用到注册器的模式
154
00:05:05,500 --> 00:05:07,000
还有工厂的模式
155
00:05:07,000 --> 00:05:09,600
去具体的实现这个功能
156
00:05:10,600 --> 00:05:12,700
下面对着具体的代码
157
00:05:12,700 --> 00:05:14,800
来看看什么是具体的
158
00:05:14,800 --> 00:05:16,600
Dispatcher的注册和分发
159
00:05:16,600 --> 00:05:18,800
还有责任的下放
160
00:05:18,800 --> 00:05:19,900
那下面也add
161
00:05:19,900 --> 00:05:21,100
这个算子作为例子
162
00:05:21,100 --> 00:05:22,500
那在上层
163
00:05:22,500 --> 00:05:25,000
或者在Pytorch的API层
164
00:05:25,000 --> 00:05:26,600
大部分都是Python的代码
165
00:05:26,600 --> 00:05:29,100
那传进去的是两个Tensor
166
00:05:29,100 --> 00:05:31,900
然后进行一个累加的操作
167
00:05:31,900 --> 00:05:33,800
关于加的复数的表示
168
00:05:33,800 --> 00:05:35,700
其实有两种操作
169
00:05:35,700 --> 00:05:38,000
一种是实部和虚部的表示
170
00:05:38,000 --> 00:05:39,200
Rectangular
171
00:05:39,200 --> 00:05:41,900
一种就是模和浮角的表示
172
00:05:41,900 --> 00:05:43,300
叫做Polar
173
00:05:43,300 --> 00:05:45,200
如果要实现一个系统
174
00:05:45,200 --> 00:05:46,300
或者实现一个算子
175
00:05:46,300 --> 00:05:49,400
同时支持这两种形式的加法的运算
176
00:05:49,400 --> 00:05:50,900
那这个时候应该怎么做呢
177
00:05:50,900 --> 00:05:52,700
那首先由这一段代码
178
00:05:52,700 --> 00:05:56,300
会把一个接口实现定义好
179
00:05:56,300 --> 00:05:57,800
一个叫做Rectangular
180
00:05:57,800 --> 00:05:59,200
一个叫做Polar
181
00:05:59,200 --> 00:06:01,400
然后去通过if else
182
00:06:01,400 --> 00:06:04,500
去判断输进去的Tensor的一个类型
183
00:06:04,500 --> 00:06:05,800
它到底是哪种
184
00:06:05,800 --> 00:06:09,500
选择具体的它对应的实现的方式
185
00:06:09,500 --> 00:06:11,400
或者它实现的方法
186
00:06:11,400 --> 00:06:13,500
而采用了注册分发的机制
187
00:06:13,500 --> 00:06:16,200
实际上会保存一张表
188
00:06:16,200 --> 00:06:18,600
这张表叫做Vtable
189
00:06:18,600 --> 00:06:21,600
这个跟C++里面的一个虚拟表
190
00:06:21,600 --> 00:06:23,500
是类似相同的概念
191
00:06:23,500 --> 00:06:25,200
那这个时候会有一个key
192
00:06:25,200 --> 00:06:26,100
有个value
193
00:06:26,100 --> 00:06:27,700
那么可以看到key里面
194
00:06:27,700 --> 00:06:29,100
刚才的add操作
195
00:06:29,100 --> 00:06:30,900
有Rectangular有Polar
196
00:06:30,900 --> 00:06:32,700
然后具体的value
197
00:06:32,700 --> 00:06:34,100
就是对应的函数
198
00:06:34,100 --> 00:06:35,100
拿到具体的key
199
00:06:35,100 --> 00:06:38,400
就可以调用具体的一个函数的value
200
00:06:38,400 --> 00:06:40,600
有两个对应的具体的函数的实现
201
00:06:40,600 --> 00:06:42,300
实际上存的不是一个函数
202
00:06:42,300 --> 00:06:44,000
而实际上存的是地址
203
00:06:44,000 --> 00:06:45,600
每次有新方法的时候
204
00:06:45,600 --> 00:06:47,200
就通过register
205
00:06:47,200 --> 00:06:49,200
去注册到刚才的那个表
206
00:06:49,200 --> 00:06:51,000
然后具体的接口的时候
207
00:06:51,000 --> 00:06:52,100
就会通过get
208
00:06:52,100 --> 00:06:55,100
来去获取对应的实现函数的地址
209
00:06:55,100 --> 00:06:57,600
有一个add的算子的操作
210
00:06:57,600 --> 00:07:00,600
数同样是z1跟z2
211
00:07:00,600 --> 00:07:03,200
最重要的是第18行代码
212
00:07:03,200 --> 00:07:04,800
通过get z1的tag
213
00:07:04,800 --> 00:07:07,300
而z1的tag就是对应的key
214
00:07:07,300 --> 00:07:08,600
通过get的方式
215
00:07:08,600 --> 00:07:11,700
去获取对应的要运行的函数
216
00:07:12,900 --> 00:07:13,900
那这种方式
217
00:07:13,900 --> 00:07:16,000
就是实际上注册和分发
218
00:07:16,000 --> 00:07:18,900
具体的实现的原理和过程了
219
00:07:18,900 --> 00:07:20,700
更多的会模仿
220
00:07:20,700 --> 00:07:23,200
C++里面的Virtual Table
221
00:07:23,200 --> 00:07:24,600
就是它的虚拟表
222
00:07:24,600 --> 00:07:26,500
PyTorch里面的Vtable
223
00:07:26,500 --> 00:07:28,100
首先具体的看看
224
00:07:28,100 --> 00:07:29,800
就是C++的Vtable
225
00:07:29,800 --> 00:07:32,300
它是每一个类都有一个Vtable
226
00:07:32,300 --> 00:07:33,800
而且只有dist
227
00:07:33,800 --> 00:07:35,800
指针指向Vtable
228
00:07:35,800 --> 00:07:37,600
而PyTorch里面的Vtable
229
00:07:37,600 --> 00:07:39,800
就是每一个算子
230
00:07:39,800 --> 00:07:42,200
都会维护一个自己的Vtable
231
00:07:42,200 --> 00:07:44,300
而且不仅仅要考虑到
232
00:07:44,300 --> 00:07:45,800
Tensor相关的信息
233
00:07:45,800 --> 00:07:48,000
还要考虑到很多的上下文
234
00:07:48,000 --> 00:07:50,200
就刚才提到的data type的信息
235
00:07:50,200 --> 00:07:52,100
还有不同硬件的信息
236
00:07:52,100 --> 00:07:54,500
而且在PyTorch的一个Vtable
237
00:07:54,500 --> 00:07:56,700
基本上只会扩展
238
00:07:56,700 --> 00:07:59,300
对应的算子的操作
239
00:07:59,300 --> 00:08:00,800
而不会像C++这样
240
00:08:00,800 --> 00:08:04,300
根据每个类去提供对应的Vtable
241
00:08:04,300 --> 00:08:05,300
所以这里面很重要
242
00:08:05,300 --> 00:08:07,400
因为在AI框架里面
243
00:08:07,400 --> 00:08:09,300
更关注的是一个计算
244
00:08:09,300 --> 00:08:11,700
而计算的逻辑是用户提供的
245
00:08:11,700 --> 00:08:13,200
就是用户的脚本告诉我
246
00:08:13,200 --> 00:08:15,900
我应该怎么去算这个深度学习的模型
247
00:08:15,900 --> 00:08:17,300
而PyTorch的Vtable
248
00:08:17,300 --> 00:08:19,300
或者PyTorch的Dispatch机制
249
00:08:19,300 --> 00:08:22,100
更多的是做一个具体的分发的工作
250
00:08:23,600 --> 00:08:25,100
那现在来看看